NuExtract-v1.5，一款专门设计用于从多种语言长文档中提取结构化信息的AI模型

Micheli 2024-10-18 00:00:00 237

NuExtract-v1.5是一款专门设计用于从多种语言长文档中提取结构化信息的AI模型，包括英语、法语、西班牙语、德语、葡萄牙语和意大利语。它是Phi-3.5-mini-instruct的精细调整版本，利用私人高质量数据集增强了其提取能力。与通用模型不同，NuExtract-v1.5经过优化，专注于纯粹的提取，确保输出与原始文本密切匹配。该模型特别突出的是其处理大量文档的能力，范围从8,000到20,000个标记，这对处理大篇幅文本是一个重要优势。用户可以通过提供输入文本和JSON模板与模型进行交互，该模板指定要提取的信息，使其成为需要从复杂文档中精确提取数据的人的实用工具。内容摘要中提供的指南演示了如何使用Python实现该模型，使其对需要信息提取任务的开发人员和研究人员具有可靠和高效的解决方案。- NuExtract-v1.5是一个用于结构化信息提取的模型，支持长文档和多种语言。 - 该模型是基于Phi-3.5-mini-instruct进行微调的，使用了私有高质量数据集进行训练。 - 使用该模型需要提供输入文本和描述所需提取信息的JSON模板。 - Mistral 7B是一个具有70亿参数的语言模型，在各项评估指标上优于其他模型。 - Mistral 7B使用了分组查询注意力和滑动窗口注意力来提高推理速度和处理任意长度序列的效率。 - 提供了一个针对指令进行微调的模型Mistral 7B - Instruct，在人工和自动化评估中均优于其他模型。 - 这些模型遵循Apache 2.0许可协议发布。

登录后可评论

上一篇：Hugging Face 模型与 Ollama 平台整合

下一篇：埃隆·马斯克声称他们是英国领先的新闻来源

上一篇：Hugging Face 模型与 Ollama 平台整合下一篇：埃隆·马斯克声称他们是英国领先的新闻来源