阿里云Startup平台推出AI24小时系列文章,网罗国内外最新的AI人工智能前沿资讯,帮助AI创业者掌握最新行业资讯。
1.深度解析MoE大模型>>
MoE架构自1991年提出以来已历经30年,而深度神经网络的概念则早在70年前就已提出。随着大模型技术的颠覆性突破,MoE架构成为当前AI领域的热点,英伟达在GTC 2024上提及的“GPT-MoE 1.8T”引起了广泛关注。MoE模型采用“术业有专攻”的设计思路,将任务分配给多个专家网络进行解决,与传统的稠密模型相比,MoE能够更高效、专业地处理问题。规模定律表明,模型越大,性能越好。这一定律是MoE受到追捧的原因之一,因为它使得模型规模的扩大成为提升AI性能的关键。MoE能够在较少的计算资源下进行有效的预训练,具有更高的计算效率和推理速度,同时在处理复杂任务时性能显著提升。但MoE架构对显存压力巨大,涉及复杂的算法和高昂的通信成本,且在资源受限的设备上部署受限。
1. 新的 AI 应用 Remini登榜首了>>
Remini是一款AI修图应用,它在五一期间登上了苹果中国区Appstore免费榜的榜首。Remini的主要功能是使用AI技术修复老照片,但此次爆红是因为其AI滤镜可以将图片转换成粘土风格,这种风格自带故事感,即使普通照片也能产生电影海报的效果。
Remini最初在日本流行起来,随后在中国通过抖音和小红书等平台被用户自发传播。不仅在原图上加滤镜,还能改变人物的表情、衣着,甚至背景,每次生成的效果都可能不同,给用户带来新鲜感。尽管Remini生成的图片有时给人丑萌的感觉,但这恰恰成为其吸引力的一部分。与美图秀秀等美化图片的应用不同,Remini更注重创造有趣的效果。
2. 全球首个超小型多模态AI Agent模型Octopus V3>>
Octopus V3是由斯坦福大学NEXA AI团队开发的,具有20亿参数,旨在使AI Agent更加智能、快速,同时降低能耗和成本。与之前的Octopus V2相比,V3在函数调用性能上超越了GPT-4,减少了95%的推理时所需的文本量,为端侧AI应用带来新的可能性。Octopus V2的核心技术“functional token”通过创新的函数调用方式显著减少了推理时所需的文本长度,使得模型在参数量较小的情况下也能高效训练。V3模型参数量不到10亿,具有多语言能力,能够轻松在各种小型端设备上运行,如智能手机、AR/VR、机器人、智能汽车等。大型语言模型和边缘人工智能市场正在快速增长,预计未来几年将有显著的复合年增长率。
3.斯坦福20亿参数端测多模态AI Agent模型大升级>>
最新研究显示,对大型语言模型进行微调或量化可能会降低其安全性,增加越狱(Jailbreak)风险。即使大模型本身没有恶意,经过微调或量化后,它们可能更容易受到安全攻击。类似于卷积神经网络(CNN)时代的问题,通过特殊提示或字符可以诱导LLM产生有害输出。研究人员使用AdvBench SubsetAndy Zou的对抗性有害提示子集和攻击树修剪(TAP)算法,对不同的LLM进行了越狱测试。实验表明,与基础模型相比,经过微调的模型更容易失去安全对齐并被越狱。量化模型由于牺牲了数值精度,也更容易受到漏洞的影响。使用Deberta-V3模型作为输入过滤器的护栏可以有效减少越狱风险,为LLM提供了额外的抵抗力。
4.纽约大学发布全新「神经-语音」解码器>>
脑机接口(BCI)技术在科研和应用领域取得进展,特别是对于因神经系统缺陷造成的失语症患者,BCI技术提供了辅助交流的可能性。研究中使用了皮层电图(ECoG)数据,通过模型转换为语音参数,并合成自然语音波形。纽约大学的研究团队开发了一种新的可微分语音合成器,能够将ECoG信号转换为可解释的语音参数,并重新合成语音。研究采用了量化的HuBERT特征作为中间表征,并结合预训练的语音合成器。但HuBERT特征未能捕捉到发音者的独特声学特征,因此需要额外模型进行转换。研究构建了一个从ECoG信号到语音的解码框架,包含ECoG解码器和语音合成器,通过可微分技术合成语音。研究展示了模型在小数据集上的高效性和适应性,能够生成高保真且自然的语音。
AI工具箱 >> 点击 进入
阿里云汇聚市面上最新、最全面的AI工具。从此,让你的创意不再遥远
2023年9月21日,阿里云正式推出阿里云创业者计划,联合知名投资机构、加速器、创服机构以及大企业创新力量,旨在为初创企业提供全方位的赋能与服务,助力创业公司在阿里云上快速构建自己的业务,开启智能时代创业新范式。