Yann LeCun:ViT慢且效率低,实时图像处理还得看卷积

阿里云创新中心> 创业资讯> Yann LeCun:ViT慢且效率低,实时图像处理还得看卷积
0
0

Yann LeCun:ViT慢且效率低,实时图像处理还得看卷积

Micheli 2024-06-02 00:00:00 274
在最近关于视觉变换器(Vision Transformers,简称ViT)与卷积神经网络(Convolutional Neural Networks,简称CNN)在实时图像处理效率方面的辩论中,图灵奖得主、Meta首席科学家Yann LeCun提出了自己的观点,强调了ViT的局限性。LeCun认为,尽管ViT越来越受欢迎,但它们在处理高分辨率图像和视频任务时速度慢且效率低,因此不适合实时应用。他建议采用一种混合方法,结合CNN在低层次的优势和变换器在高层次的自我注意机制,这一概念是由Meta研究人员开发的

在最近关于视觉变换器(Vision Transformers,简称ViT)与卷积神经网络(Convolutional Neural Networks,简称CNN)在实时图像处理效率方面的辩论中,图灵奖得主、Meta首席科学家Yann LeCun提出了自己的观点,强调了ViT的局限性。LeCun认为,尽管ViT越来越受欢迎,但它们在处理高分辨率图像和视频任务时速度慢且效率低,因此不适合实时应用。他建议采用一种混合方法,结合CNN在低层次的优势和变换器在高层次的自我注意机制,这一概念是由Meta研究人员开发的DETR系统所先导。这场讨论对于对人工智能和计算机视觉最新发展感兴趣的人来说非常重要,因为它挑战了当前变换器主导的趋势,并提出了一种更为细致的神经网络架构设计方法。- Yann LeCun认为Vision Transformer(ViT)架构慢且效率低,不适合实时处理高分辨率图像和视频任务。 - ViT与传统卷积神经网络(CNN)之间的争论持续存在。 - Harald Schäfer展示了使用纯ViT的压缩器,效果非常好。 - Yann LeCun认为在图像或视频处理中,自注意力循环之前需要使用具有池化和步幅的卷积层。 - Yann LeCun喜欢低级别的卷积/步幅/池化和高级别的自注意力循环的混合架构。 - 谢赛宁认为ViT适合低分辨率图像,但对于高分辨率图像,需要使用卷积或对ViT进行修补和处理。 - ViT与CNN之间的争论将继续,直到出现更强大的架构。

版权声明: 创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。

评论

登录后可评论