LOTUS:利用LLMs在非结构化和结构化数据表格上实现语义查询
齐思GPT
2024-10-09 00:00:00
350
LOTUS是一项革命性的工具,它通过语义查询改变了我们与非结构化和结构化数据的互动方式。
LOTUS是一项革命性的工具,它通过语义查询改变了我们与非结构化和结构化数据的互动方式。它引入了语义操作符,这是一种由AI驱动的工具,能够扩展关系模型,允许用户使用自然语言进行复杂的数据操作。这一创新简化了数据分析和推理过程,使其更加易于访问和高效。LOTUS以其在最小编码工作量下复制甚至改进最先进查询管道的能力而脱颖而出,这一点已经通过其在FEVER数据集和BioDEX数据集上的表现得到证明。它的开源性质和类似Pandas的API使其成为执行事实核查、分类和搜索等任务的高效工具。对于对尖端数据查询技术感兴趣的人来说,LOTUS代表了一个重大进步,它在速度和准确性上都优于现有方法。- 语言模型(LMs)的语义能力有潜力在庞大的知识语料库上实现丰富的分析和推理。
- 现有系统缺乏高级抽象来进行大规模的语义查询。
- 引入语义操作符,通过组合的基于人工智能的操作来扩展关系模型,实现对数据集的语义查询。
- 每个操作符可以有多种实现和优化方式,类似于关系操作符的执行计划。
- 在LOTUS中实现了这些操作符和一些优化,LOTUS是一个具有类似Pandas API的开源查询引擎。
- 在事实核查、极端多标签分类和搜索等一系列真实应用中,LOTUS的编程模型具有高度表达性,能够以较低的开发成本捕捉到最先进的查询流水线。
- 在FEVER数据集上,LOTUS的程序可以用几行代码复现最新的事实核查流水线FacTool,并实现了一个新的流水线,将准确性提高了9.5%,同时执行时间降低了7-34倍。
- 在BioDEX数据集的极端多标签分类任务中,LOTUS通过其连接操作符复现了最先进的结果质量,并提供了一个比朴素连接快800倍的高效算法。
- 在搜索和排名应用中,LOTUS允许简单组合操作符,实现的nDCG@10比基准检索器和重新排序器高出5.9-49.4%,同时提供了查询效率,执行时间比先前工作中基于LM的排名方法低1.67-10倍。
- LOTUS公开可用于https://github.com/stanford-futuredata/lotus。
版权声明:
创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写
「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。
评论