SmolDocling-256M-preview是来自IBM研究院Docling团队的一款先进的多模态图像文本转文本模型,旨在简化文档转换过程

阿里云创新中心> 创业资讯> SmolDocling-256M-preview是来自IBM研究院Docling团队的一款先进的多模态图像文本转文本模型,旨在简化文档转换过程
0
0

SmolDocling-256M-preview是来自IBM研究院Docling团队的一款先进的多模态图像文本转文本模型,旨在简化文档转换过程

齐思GPT 2025-03-18 00:00:00 292
SmolDocling-256M-preview是来自IBM研究院Docling团队的一款先进的多模态图像文本转文本模型,旨在简化文档转换过程。这款模型的独特之处在于其能够高效地从图像中提取并转换文本,同时保留原始文档布局并识别复杂元素,如代码块、数学公式和图表。它尤其值得注意的是,利用VLLM实现快速推理能力,在A100 GPU上仅需0.35秒处理一页。这款模型不仅专为科学文档而设计,还能轻松处理非科学内容。
SmolDocling-256M-preview是来自IBM研究院Docling团队的一款先进的多模态图像文本转文本模型,旨在简化文档转换过程。这款模型的独特之处在于其能够高效地从图像中提取并转换文本,同时保留原始文档布局并识别复杂元素,如代码块、数学公式和图表。它尤其值得注意的是,利用VLLM实现快速推理能力,在A100 GPU上仅需0.35秒处理一页。这款模型不仅专为科学文档而设计,还能轻松处理非科学内容。未来的更新承诺提供更多功能,如改进的图表识别和化学物质检测,SmolDocling-256M-preview代表了文档处理技术的重大进步。对于那些处理文档数字化和转换的人来说,探索这款模型可能会改变游戏规则,节省时间并提高将文档转换为HTML和Markdown等各种格式的准确性。- SmolDocling是一个多模态的图像-文本-文本模型,用于高效的文档转换。 - 它具有多种功能,包括OCR、布局和定位、代码识别、公式识别、图表识别、表格识别等。 - 它支持科学和非科学文档的处理,并与Docling无缝集成。 - 使用VLLM进行快速批量推理,平均每页0.35秒。 - DocTags是一种清晰结构化的标签和规则系统,用于将文本与文档结构分离。 - 支持多种指令,如将页面转换为Docling、将图表转换为表格、将公式转换为LaTeX等。 - SmolDocling是由IBM Research的Docling团队开发的多模态模型。 - 它是基于Idefics3模型进行微调的。 - SmolDocling的许可证为Apache 2.0。

image

版权声明: 创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。

评论

登录后可评论
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等