在一篇引人深思的论文中,研究人员质疑大型语言模型如GPT-4是否能作为准确的世界模拟器,它们在常识任务中的准确率仅为60%。
著名的人工智能专家Yann LeCun支持这些发现,强调了AI系统为了有效规划需要一个专门的世界模型。研究引入了一个新的评估语言模型模拟能力的工具——“ByteSized32-State-Prediction”基准。尽管GPT-4显示出了潜力,但在算术、常识和科学知识等方面的可靠性还不够。这篇论文之所以重要,是因为它不仅评估了当前AI的状态,还为未来提高语言模型模拟现实世界场景的能力奠定了基础。
如果你对AI能力和实际应用的交叉点感兴趣,这项研究为理解当前语言模型的局限性和潜力提供了宝贵的洞见。- ACL 2024论文讨论了大语言模型作为世界模拟器的可行性。 - GPT-4在模拟常识任务时准确率约为60%。 - Yann LeCun认同该论文的发现,认为没有世界模型就没有规划。 - 研究者构建了新的基准来评估大语言模型作为世界模拟器的性能。 - GPT-4在模拟动作驱动转换和环境驱动转换时的准确率分别为77.1%和49.7%。 - GPT-4在预测游戏进度时的准确率为92.1%。 - 人类在该任务中的表现优于GPT-4,整体准确率为80%。 - GPT-4在算术、常识或科学知识属性上容易出错。
评论