“最强开源模型”被打假,CEO下场致歉,英伟达科学家:现有测试基准已经不靠谱了

阿里云创新中心> 创业资讯> “最强开源模型”被打假,CEO下场致歉,英伟达科学家:现有测试基准已经不靠谱了
0
0

“最强开源模型”被打假,CEO下场致歉,英伟达科学家:现有测试基准已经不靠谱了

Micheli 2024-09-14 00:00:00 212
这篇文章深入探讨了围绕开源模型Reflection的争议,该模型被指控存在虚假性能声明。文章突出了该公司CEO在面对指控时发表道歉的重要事件,指出该模型仅是另一个名为Claude的模型的复制品。

文章开头固定图片.jpg


这篇文章深入探讨了围绕开源模型Reflection的争议,该模型被指控存在虚假性能声明。文章突出了该公司CEO在面对指控时发表道歉的重要事件,指出该模型仅是另一个名为Claude的模型的复制品。这篇文章之所以引人注目,是因为它揭示了人工智能行业基准测试可靠性的更广泛问题,报道了独立评估结果与Reflection宣传能力相矛盾的情况。这一争议促使英伟达公司的一位高级科学家呼吁采用更可信的模型评估方法,如独立评审或用户投票排名。对于对人工智能发展和性能基准的诚信感兴趣的读者,这篇文章提供了一个窥视如何确保该领域透明度和可信度的挑战的机会。- "最强开源模型"被质疑造假,CEO发文道歉,但未承认造假,表示正在调查。 - 模型被指控套壳Claude,官方辩称测试成绩有误,但第三方测试机构表示无法复现。 - Reflection模型的成绩不如宣传,被质疑是由Llama 3经过改造而来,而不是Llama 3.1。 - Reflection与Claude 3.5-Soonet的输出一致,遇到"Claude"一词会自动过滤。 - 模型供应商表示没有套壳,正在整理证据进行解释。 - 托管平台CTO表示与Reflection之间发生了许多事情,模型的表现与宣传不符。 - 英伟达科学家表示现有测试基准不靠谱,只相信独立第三方测评或用户投票的榜单。 - "最强开源模型"被质疑造假,CEO发文道歉,但未承认造假,表示正在调查。 - 模型被指控套壳Claude,官方辩称测试成绩有误,但第三方测试机构表示无法复现。 - Reflection模型的成绩不如宣传,被质疑是由Llama 3经过改造而来,而不是Llama 3.1。 - Reflection与Claude 3.5-Soonet的输出一致,遇到"Claude"一词会自动过滤。 - 模型供应商表示没有套壳,正在整理证据进行解释。 - 托管平台CTO表示与Reflection之间发生了许多事情,模型的表现与宣传不符。 - 英伟达科学家表示现有测试基准不靠谱,只相信独立第三方测评或用户投票的榜单。

版权声明: 创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。

评论

登录后可评论