FACTS Grounding:评估大型语言模型真实性的新基准
Micheli
2024-12-19 00:00:00
257
DeepMind推出了FACTS Grounding,这是一个专门设计用于评估大型语言模型(LLMs)的事实性和基础性的新基准。这个基准的重点在于评估LLMs能否生成准确且详细的回应,这些回应基于提供的来源材料。它旨在解决LLMs“产生幻觉”虚假信息的问题,这可能会损害人们对其输出的信任。该基准包括一个包含1,719个示例的数据集,需要长篇回应,并伴随着在Kaggle上发布排行榜,以跟踪行业进展。评估过程涉及使用三个先进的AI模型进行两阶段评判,以确保回应既相关又基于事实。
DeepMind推出了FACTS Grounding,这是一个专门设计用于评估大型语言模型(LLMs)的事实性和基础性的新基准。这个基准的重点在于评估LLMs能否生成准确且详细的回应,这些回应基于提供的来源材料。它旨在解决LLMs“产生幻觉”虚假信息的问题,这可能会损害人们对其输出的信任。该基准包括一个包含1,719个示例的数据集,需要长篇回应,并伴随着在Kaggle上发布排行榜,以跟踪行业进展。评估过程涉及使用三个先进的AI模型进行两阶段评判,以确保回应既相关又基于事实。这一举措意义重大,因为它代表了Google DeepMind和Google Research之间合作努力,以增强AI系统的可靠性,并鼓励AI社区参与并改进这一基准。-事实基础是评估大型语言模型(LLM)的真实性和基础的基准。
-LLM会产生虚假信息和幻觉。
-基准衡量LLM在所提供的源材料中做出回应的准确程度。
-FACTS接地数据集由1719个需要长形式接地响应的示例组成。
-数据集包括来自不同领域的文档和用户对摘要、问答生成和重写任务的请求。
-LLM响应通过三个自动判断模型来评估是否合格和准确率。
-FACTS是Google DeepMind和Google Research的合作项目。
版权声明:
创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写
「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。
评论