GitHub-NVIDI/nv摄取:NVIDIAIngest是一组早期访问的微服务,用于将数十万复杂、混乱的非结构化PDF和其他企业文档解析为元数据和文本,以嵌入检索系统
齐思GPT
2025-01-13 00:00:00
406
NVIDIA Ingest 是一款强大的微服务,旨在解决解析非结构化文档(如PDF、Word文件和图像)的复杂挑战。它特别引人注目的地方在于,利用 NVIDIA 的专门 NIM 微服务,能够提取和上下文化各种元素,如文本、表格、图表和图像。这个工具不仅仅是一个静态管道;它为每种文档类型提供了多种提取方法,确保在处理过程中灵活性和效率。对于处理大量文档的组织来说,NVIDIA Ingest 承诺通过实现并行处理并将提取的数据嵌入向量数据库以实现高级搜索功能,从而彻底改变信息检索方式。
NVIDIA Ingest 是一款强大的微服务,旨在解决解析非结构化文档(如PDF、Word文件和图像)的复杂挑战。它特别引人注目的地方在于,利用 NVIDIA 的专门 NIM 微服务,能够提取和上下文化各种元素,如文本、表格、图表和图像。这个工具不仅仅是一个静态管道;它为每种文档类型提供了多种提取方法,确保在处理过程中灵活性和效率。
对于处理大量文档的组织来说,NVIDIA Ingest 承诺通过实现并行处理并将提取的数据嵌入向量数据库以实现高级搜索功能,从而彻底改变信息检索方式。然而,值得注意的是,利用这项技术需要特定的硬件和软件先决条件,包括兼容的 NVIDIA GPU、Linux 操作系统、Docker 和 CUDA 工具包。
NVIDIA Ingest 的输出是结构化的 JSON 格式,非常适合进一步分析和集成到各种系统中。如果您在企业环境中,希望简化文档处理并释放非结构化数据的潜力,那么值得探索 NVIDIA Ingest。- NVIDIA Ingest是一组用于解析非结构化PDF和其他企业文档的微服务。
- NVIDIA Ingest支持解析PDF、Word和PowerPoint文档,并提取文本、表格、图表和图像。
- NVIDIA Ingest可以将文档分割成页面,并通过OCR将其转换为JSON格式。
- NVIDIA Ingest可以计算提取内容的嵌入,并存储到向量数据库Milvus中。
- NVIDIA Ingest是一个动态的服务,可以根据提交的文档执行不同的操作。
- 使用NVIDIA Ingest需要具备一定的硬件和软件要求,包括GPU、Linux操作系统、Docker等。
- 使用NVIDIA Ingest的步骤包括启动容器、安装Python依赖、提交文档和检查结果。
- 处理完成后,可以在输出目录中找到提取的文本和图像的JSON文件。
- 可以通过Python或nv-ingest-cli工具进行程序化地提交作业。
- 所有贡献者都需要在提交的代码中签署Developer Certificate of Origin。

版权声明:
创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写
「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。
评论