徐国伟Twitter上的Kevin_GuoweiXu，宣布推出了突破性的视觉语言模型LLaVA-o1

阎荟 2024-11-18 00:00:00 185

徐国伟，即Twitter上的@Kevin_GuoweiXu，宣布推出了突破性的视觉语言模型LLaVA-o1。这个模型以其能够进行自发和系统化推理的能力脱颖而出，这一特点与文本GPT-o1模型相似。拥有庞大的110亿参数，LLaVA-o1据报道超越了其他知名模型，如Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-Vision-Instruct。LLaVA-o1的成功归因于其在结构化数据上的训练和新推理方法的实施。这一发展对从事人工智能和机器学习，特别是在视觉语言处理领域的人士可能具有重要意义。- LLaVA-o1是第一个具有自发、系统推理能力的视觉语言模型，类似于GPT-o1。 - 11B模型在结构化数据和新颖推理的训练下，胜过了Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-Vision-Instruct。

登录后可评论

上一篇：GabriCorso很高兴地宣布Boltz-1模型的发布，这是第一个在生物分子结构预测上达到AlphaFold3级别准确性的开源和商业可用模型！

下一篇：RAG的四个级别 — 微软的研究 - Cobus Greyling - Medium

上一篇：GabriCorso很高兴地宣布Boltz-1模型的发布，这是第一个在生物分子结构预测上达到AlphaFold3级别准确性的开源和商业可用模型！下一篇：RAG的四个级别 — 微软的研究 - Cobus Greyling - Medium