本周AI动态：xAI发布Grok 3模型，AI基准测试引发争议

Micheli 2025-02-21 00:00:00 273

在最新一期的TechCrunch人工智能通讯中，重点关注了人工智能基准的局限性和相关性，这是由埃隆·马斯克的人工智能初创公司xAI发布的新模型Grok 3引发的。文章质疑了流行的人工智能基准的价值，这些基准通常强调晦涩的知识，可能不反映实际应用。它强调了行业对更好的测试方法和独立机构的需求，正如沃顿商学院教授伊桑·莫利克所建议的那样。此外，文章还提到了OpenAI在人工智能开发中向“知识自由”转变的趋势，米拉·穆拉蒂的Thinking Machines Lab的推出，并介绍了新的人工智能基准和模型，如OpenAI的SWE-Lancer和Stepfun的Step-Audio。该指南建议，对于那些对人工智能评估和发展的当前状态和未来方向感兴趣的人来说，这些内容提供了对行业衡量人工智能进展方式的关键审视。-埃隆·马斯克的人工智能初创公司xAI发布了Grok 3，这是一款新的人工智能模型，在数学和编程基准方面优于其他人。 -人工智能基准通常与现实世界的任务缺乏相关系数。 -人工智能行业需要更好的测试和相互独立的测试机构。 -对于将基准与经济影响或采用率和效用相匹配，有不同的建议。 -OpenAI正在改变其人工智能开发方法，以优先考虑知识自由。 -前OpenAI首席技术官Mira Murati创办了一家名为Thinking Machines Lab的新公司。 -Meta将主办LlamaCon，一个专注于生成人工智能的开发者会议。 -OpenEuroLLM是一个在欧洲建立透明人工智能基础模型的合作项目。 -OpenAI研究人员创建了SWE-Lancer，这是一个新的人工智能基准，用于评估编码能力。 -Stepfun发布了Step-Audio，一个支持多种语言的开放人工智能模型。 -Nous Research发布了DeepHermes-3 Preview，这是一个人工智能模型，将推理和直观语言功能相结合。

登录后可评论

上一篇：Augury获7500万美元融资，用AI检测工厂机器故障

下一篇：DeepSeek-ai在GitHub上的开源项目open-infra-index将成为对人工通用智能（AGI）感兴趣的开发人员和研究人员的宝库

上一篇：Augury获7500万美元融资，用AI检测工厂机器故障下一篇：DeepSeek-ai在GitHub上的开源项目open-infra-index将成为对人工通用智能（AGI）感兴趣的开发人员和研究人员的宝库