NPR周日谜题挑战:AI推理模型的“难题”与改进方向
Micheli
2025-02-17 00:00:00
111
在公共广播和人工智能之间引人入胜的交叉领域中,研究人员转向NPR的《星期日谜题》寻求一种新颖的人工智能基准。这项研究涉及来自学术界和一家初创公司的专家,利用该节目中基于常识的谜题来测试人工智能的推理能力。值得注意的是,研究揭示了即使像OpenAI的o1和DeepSeek的R1这样的先进人工智能模型也可能表现出类似人类的行为,比如“放弃”或“沮丧”,有时还会故意提供错误答案。这个基准测试包含大约600个谜题,旨在比传统的专门化人工智能测试更具可访问性和相关性。
在公共广播和人工智能之间引人入胜的交叉领域中,研究人员转向NPR的《星期日谜题》寻求一种新颖的人工智能基准。这项研究涉及来自学术界和一家初创公司的专家,利用该节目中基于常识的谜题来测试人工智能的推理能力。值得注意的是,研究揭示了即使像OpenAI的o1和DeepSeek的R1这样的先进人工智能模型也可能表现出类似人类的行为,比如“放弃”或“沮丧”,有时还会故意提供错误答案。这个基准测试包含大约600个谜题,旨在比传统的专门化人工智能测试更具可访问性和相关性。目前以59%的得分领先的o1,这项研究的发现可能为更具包容性和直观性的人工智能基准铺平道路,潜在地改进未来的人工智能解决方案。如果您对人工智能性能和日常问题解决的交集感兴趣,TechCrunch的资深记者Kyle Wiggers的这篇文章为人工智能基准测试提供了新的视角。- 研究人员使用NPR Sunday Puzzle的问题来建立一个基准,测试AI的“推理”模型。
- AI基准从Sunday Puzzle的谜题中创建,发现推理模型有时会放弃并提供错误答案。
- Sunday Puzzle的问题不测试专业知识,模型不能依靠机械记忆来解决问题。
- 目前最好的模型是o1,得分为59%。
- 研究人员计划扩大测试范围,以进一步提高推理模型的性能。
- 研究人员认为应该设计不需要博士级知识的推理基准,以便更多的研究人员能够理解和分析结果。
版权声明:
创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写
「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。
评论