FACTS Grounding：评估大型语言模型真实性的新基准

Micheli 2024-12-19 00:00:00 257

DeepMind推出了FACTS Grounding，这是一个专门设计用于评估大型语言模型（LLMs）的事实性和基础性的新基准。这个基准的重点在于评估LLMs能否生成准确且详细的回应，这些回应基于提供的来源材料。它旨在解决LLMs“产生幻觉”虚假信息的问题，这可能会损害人们对其输出的信任。该基准包括一个包含1,719个示例的数据集，需要长篇回应，并伴随着在Kaggle上发布排行榜，以跟踪行业进展。评估过程涉及使用三个先进的AI模型进行两阶段评判，以确保回应既相关又基于事实。这一举措意义重大，因为它代表了Google DeepMind和Google Research之间合作努力，以增强AI系统的可靠性，并鼓励AI社区参与并改进这一基准。-事实基础是评估大型语言模型（LLM）的真实性和基础的基准。 -LLM会产生虚假信息和幻觉。 -基准衡量LLM在所提供的源材料中做出回应的准确程度。 -FACTS接地数据集由1719个需要长形式接地响应的示例组成。 -数据集包括来自不同领域的文档和用户对摘要、问答生成和重写任务的请求。 -LLM响应通过三个自动判断模型来评估是否合格和准确率。 -FACTS是Google DeepMind和Google Research的合作项目。

登录后可评论

上一篇：psychosort(ClementDelangue)：今天，美国众议院发布了一份备受期待的人工智能政策报告，其中包含了对保护开源人工智能和小型科技的重要举措！🧵

下一篇：独家报道：Cohere正在悄悄地与Palantir合作，部署其AI模型

上一篇：psychosort(ClementDelangue)：今天，美国众议院发布了一份备受期待的人工智能政策报告，其中包含了对保护开源人工智能和小型科技的重要举措！🧵 下一篇：独家报道：Cohere正在悄悄地与Palantir合作，部署其AI模型