我在500个真实PR上比较了Claude Sonnet 3.5和Deepseek R1

我在500个真实PR上比较了Claude Sonnet 3.5和Deepseek R1 - 这是我发现的结果

齐思GPT 2025-02-09 00:00:00 413

在对代码审查语言模型进行实际评估中，作者比较了Claude 3.5 Sonnet和Deepseek R1在来自生产代码库的500个真实拉取请求上的表现。研究显示，Deepseek R1通过检测3.7倍更多的错误，关键错误检测率达到81%，优于Claude 3.5。值得注意的是，Deepseek R1擅长识别跨多个文件的复杂问题，这可能导致生产环境中的重大问题。作者的详细分析提供了关于每个模型在检测竞争条件、类型不匹配、安全漏洞和逻辑错误方面的优势的见解。这种比较对于希望通过AI辅助来增强其代码审查流程的开发人员和团队可能特别有价值。作者还鼓励社区分享他们对这些模型的经验和评估，促进对代码审查中AI能力的理解的协作方法。- 对比了Claude Sonnet 3.5和Deepseek R1在500个真实的PR上的表现 - Deepseek R1在关键错误检测率上比Claude 3.5高出14% - Deepseek R1能够更好地连接多个文件中的细微问题，可能导致生产问题 - 分析结果详见链接：[https://www.entelligence.ai/post/deepseek\_eval.html](https://www.entelligence.ai/post/deepseek_eval.html) - 欢迎其他人分享类似的评估结果或者注意到模型在使用中的差异 - 提供了一个链接供用户注册代码审查服务：[https://www.entelligence.ai/pr](https://www.entelligence.ai/pr)

登录后可评论

上一篇：xenovacom(@huggingface)：我们成功了。Kokoro TTS (v1.0)现在可以在您的浏览器中完全本地运行，使用WebGPU加速。实时文本转语音，无需服务器。在大约1秒钟内生成10秒的语音，免费。你会构建什么？🔥

下一篇：ai_for_success(@TomLikesRobots)：谷歌的Gemini实时屏幕共享技术太厉害了，目前的人工智能系统已经比大多数医生更优秀了。

上一篇：xenovacom(@huggingface)：我们成功了。Kokoro TTS (v1.0)现在可以在您的浏览器中完全本地运行，使用WebGPU加速。实时文本转语音，无需服务器。在大约1秒钟内生成10秒的语音，免费。你会构建什么？🔥 下一篇：ai_for_success(@TomLikesRobots)：谷歌的Gemini实时屏幕共享技术太厉害了，目前的人工智能系统已经比大多数医生更优秀了。