NuExtract-v1.5,一款专门设计用于从多种语言长文档中提取结构化信息的AI模型
Micheli
2024-10-18 00:00:00
237
NuExtract-v1.5是一款专门设计用于从多种语言长文档中提取结构化信息的AI模型,包括英语、法语、西班牙语、德语、葡萄牙语和意大利语。它是Phi-3.5-mini-instruct的精细调整版本,利用私人高质量数据集增强了其提取能力。与通用模型不同,NuExtract-v1.5经过优化,专注于纯粹的提取,确保输出与原始文本密切匹配。该模型特别突出的是其处理大量文档的能力,范围从8,000到20,000个标记,这对处理大篇幅文本是一个重要优势。用户可以通过提供输入文本和JSON模板与模型进行交互,该
NuExtract-v1.5是一款专门设计用于从多种语言长文档中提取结构化信息的AI模型,包括英语、法语、西班牙语、德语、葡萄牙语和意大利语。它是Phi-3.5-mini-instruct的精细调整版本,利用私人高质量数据集增强了其提取能力。与通用模型不同,NuExtract-v1.5经过优化,专注于纯粹的提取,确保输出与原始文本密切匹配。该模型特别突出的是其处理大量文档的能力,范围从8,000到20,000个标记,这对处理大篇幅文本是一个重要优势。用户可以通过提供输入文本和JSON模板与模型进行交互,该模板指定要提取的信息,使其成为需要从复杂文档中精确提取数据的人的实用工具。内容摘要中提供的指南演示了如何使用Python实现该模型,使其对需要信息提取任务的开发人员和研究人员具有可靠和高效的解决方案。- NuExtract-v1.5是一个用于结构化信息提取的模型,支持长文档和多种语言。
- 该模型是基于Phi-3.5-mini-instruct进行微调的,使用了私有高质量数据集进行训练。
- 使用该模型需要提供输入文本和描述所需提取信息的JSON模板。
- Mistral 7B是一个具有70亿参数的语言模型,在各项评估指标上优于其他模型。
- Mistral 7B使用了分组查询注意力和滑动窗口注意力来提高推理速度和处理任意长度序列的效率。
- 提供了一个针对指令进行微调的模型Mistral 7B - Instruct,在人工和自动化评估中均优于其他模型。
- 这些模型遵循Apache 2.0许可协议发布。
版权声明:
创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写
「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。
评论