阿里云Startup平台推出AI24小时系列文章,网罗国内外最新的AI人工智能前沿资讯,帮助AI创业者掌握最新行业资讯。
1. 150万条多语种音频数据,浙大清华发布语音伪造检测框架SafeEar,兼顾隐私保护>>
浙江大学智能系统安全实验室(USSLAB)与清华大学联合发布了一种名为SafeEar的语音伪造检测框架,该框架能够在保护语音内容隐私的同时进行语音伪造检测。SafeEar的核心是基于神经音频编解码器的解耦模型,能够分离语音的声学信息与语义信息,并仅利用声学信息进行伪造检测,有效防止语音隐私泄露。该框架检测错误率可低至2.02%,且无法通过声学信息恢复语音内容,确保了高隐私保护效果。此外,研究团队还构建了一个包含150万条多语种音频样本的数据集CVoiceFake,为语音伪造检测提供了丰富的测试材料。
1. Meta发布多模态开源模型Llama 3.2,优化移动端AI >>
Meta在开发者大会上发布了多模态开源模型Llama 3.2,该模型不仅具备多模态能力,还与Arm等合作,推出了针对高通和联发科硬件优化的移动版本。Llama 3.2包含110亿和900亿参数的多模态版本以及10亿和30亿参数的轻量级纯文本模型。在图像理解任务上,Llama 3.2 11B超越了Claude 3 Haiku,而90B版本与GPT-4o-mini相媲美。此外,专为端侧打造的3B版本在性能测试中也优于谷歌的Gemma 2 2.6B和微软的Phi 3.5-mini。这些模型的发布,预示着AI在手机和其他设备上的应用将迎来新的发展。
2. Meta首款多模态Llama 3.2开源,1B羊驼宝宝,跑在手机上了 >>
Meta发布了首款多模态Llama 3.2模型,这是羊驼系列中首个支持图像和文本理解的模型。除了11B和90B版本,还推出了1B和3B轻量级版本,适配Arm处理器,能在手机和AR眼镜等边缘设备上运行。Llama 3.2在图像理解任务上的表现超越了闭源Claude 3 Haiku,甚至90B版本击败了GPT-4o mini。轻量级1B/3B模型在执行摘要、指令遵循、重写等任务上表现出色,专为Arm处理器优化,支持128K上下文。Meta还与高通、联发科和Arm合作,推动Llama模型在终端设备上的应用。
AI工具箱 >> 点击 进入
阿里云汇聚市面上最新、最全面的AI工具。从此,让你的创意不再遥远