在最近关于视觉变换器(Vision Transformers,简称ViT)与卷积神经网络(Convolutional Neural Networks,简称CNN)在实时图像处理效率方面的辩论中,图灵奖得主、Meta首席科学家Yann LeCun提出了自己的观点,强调了ViT的局限性。LeCun认为,尽管ViT越来越受欢迎,但它们在处理高分辨率图像和视频任务时速度慢且效率低,因此不适合实时应用。他建议采用一种混合方法,结合CNN在低层次的优势和变换器在高层次的自我注意机制,这一概念是由Meta研究人员开发的DETR系统所先导。这场讨论对于对人工智能和计算机视觉最新发展感兴趣的人来说非常重要,因为它挑战了当前变换器主导的趋势,并提出了一种更为细致的神经网络架构设计方法。- Yann LeCun认为Vision Transformer(ViT)架构慢且效率低,不适合实时处理高分辨率图像和视频任务。 - ViT与传统卷积神经网络(CNN)之间的争论持续存在。 - Harald Schäfer展示了使用纯ViT的压缩器,效果非常好。 - Yann LeCun认为在图像或视频处理中,自注意力循环之前需要使用具有池化和步幅的卷积层。 - Yann LeCun喜欢低级别的卷积/步幅/池化和高级别的自注意力循环的混合架构。 - 谢赛宁认为ViT适合低分辨率图像,但对于高分辨率图像,需要使用卷积或对ViT进行修补和处理。 - ViT与CNN之间的争论将继续,直到出现更强大的架构。
评论