阿里云【AI24小时】2024年9月27日

阿里云Startup平台推出AI24小时系列文章，网罗国内外最新的AI人工智能前沿资讯，帮助AI创业者掌握最新行业资讯。

国内AI.jpg

1. 150万条多语种音频数据，浙大清华发布语音伪造检测框架SafeEar，兼顾隐私保护>>

浙江大学智能系统安全实验室(USSLAB)与清华大学联合发布了一种名为SafeEar的语音伪造检测框架，该框架能够在保护语音内容隐私的同时进行语音伪造检测。SafeEar的核心是基于神经音频编解码器的解耦模型，能够分离语音的声学信息与语义信息，并仅利用声学信息进行伪造检测，有效防止语音隐私泄露。该框架检测错误率可低至2.02%，且无法通过声学信息恢复语音内容，确保了高隐私保护效果。此外，研究团队还构建了一个包含150万条多语种音频样本的数据集CVoiceFake，为语音伪造检测提供了丰富的测试材料。

海外.jpg

1. Meta发布多模态开源模型Llama 3.2，优化移动端AI >>

Meta在开发者大会上发布了多模态开源模型Llama 3.2，该模型不仅具备多模态能力，还与Arm等合作，推出了针对高通和联发科硬件优化的移动版本。Llama 3.2包含110亿和900亿参数的多模态版本以及10亿和30亿参数的轻量级纯文本模型。在图像理解任务上，Llama 3.2 11B超越了Claude 3 Haiku，而90B版本与GPT-4o-mini相媲美。此外，专为端侧打造的3B版本在性能测试中也优于谷歌的Gemma 2 2.6B和微软的Phi 3.5-mini。这些模型的发布，预示着AI在手机和其他设备上的应用将迎来新的发展。

2. Meta首款多模态Llama 3.2开源，1B羊驼宝宝，跑在手机上了 >>

Meta发布了首款多模态Llama 3.2模型，这是羊驼系列中首个支持图像和文本理解的模型。除了11B和90B版本，还推出了1B和3B轻量级版本，适配Arm处理器，能在手机和AR眼镜等边缘设备上运行。Llama 3.2在图像理解任务上的表现超越了闭源Claude 3 Haiku，甚至90B版本击败了GPT-4o mini。轻量级1B/3B模型在执行摘要、指令遵循、重写等任务上表现出色，专为Arm处理器优化，支持128K上下文。Meta还与高通、联发科和Arm合作，推动Llama模型在终端设备上的应用。

标题3.jpg

AI工具箱 >> 点击进入

阿里云汇聚市面上最新、最全面的AI工具。从此，让你的创意不再遥远