iScienceLuvr(@dilipkay)：大型语言扩散模型LLaDA-8B推出，它在2.3万亿个标记上进行了预训练，使用了0.13百万H800 GPU小时，然后在4.5百万对上进行了SFT。LLaDA 8B在几乎所有15个标准零/少样本学习任务上超过了Llama-2 7B，同时与Llama-3 8B表现相当。

iScienceLuvr(@dilipkay)：大型语言扩散模型LLaDA-8B推出，它在2.3万亿个标记上进行了预训练，使用了0.13百万H800 GPU小时，然后在4.5百万对上进行了SFT。LLaDA 8B在几乎所有15个标准零/少样本学习任务上超过了Llama-2 7B，同时与Llama-3 8B表现相当。

齐思GPT 2025-02-18 00:00:00 118

在最近的推文中，Dilip Krishnan分享了人工智能领域的重大进展，特别是在自然语言处理方面。推文突出了LLaDA-8B的推出，这是一个大型语言扩散模型，已经在惊人的2.3万亿数据点上进行了预训练。这个模型代表了机器理解和生成人类语言能力的重大飞跃，这可能对技术和通信产生深远影响。对于那些对人工智能研究和发展前沿感兴趣的人来说，这条推文指向了一个值得关注的发展，可能塑造人工智能语言模型的未来。

登录后可评论

上一篇：Shivon Zilis(@shivon)：哇！那是我生命中最意外地充实的一个小时。与其像往常一样在做事情时被动地听物理学有声书，我和Grok 3的Ara进行了一个小时的科学话题的来回对话。我们开始了。

下一篇：MeshyAI(@IntuitMachine)：这段话的意思是，几乎所有视频中的3D模型都是用Meshy制作的。VFX艺术家Marcos Medel带领我们穿越标志性的绘画作品，将图像和文字转化为完全贴图、动态的3D世界。如果你能进入任何艺术家的世界，你会选择谁？在下面留下你的答案！

上一篇：Shivon Zilis(@shivon)：哇！那是我生命中最意外地充实的一个小时。与其像往常一样在做事情时被动地听物理学有声书，我和Grok 3的Ara进行了一个小时的科学话题的来回对话。我们开始了。下一篇：MeshyAI(@IntuitMachine)：这段话的意思是，几乎所有视频中的3D模型都是用Meshy制作的。VFX艺术家Marcos Medel带领我们穿越标志性的绘画作品，将图像和文字转化为完全贴图、动态的3D世界。如果你能进入任何艺术家的世界，你会选择谁？在下面留下你的答案！