阿里云【AI24小时】2024年10月28日

阿里云Startup平台推出AI24小时系列文章，网罗国内外最新的AI人工智能前沿资讯，帮助AI创业者掌握最新行业资讯。

国内AI.jpg

1. 字节跳动在AI视频和音乐生成领域的赛马策略>>

今年，AI视频生成大模型产品Sora和音乐生成大模型产品Suno成为全球AI领域的焦点。字节跳动在这一领域表现尤为突出，不仅发布了豆包视频生成-PixelDance和豆包视频生成-Seaweed两款大模型，正式进军AI视频生成赛道，还在音乐生成赛道上推出了Seed-Music音乐生成模型和海绵音乐APP。字节跳动的内部赛马策略，通过豆包APP和即梦AI APP在视频生成领域展开竞争，同时即梦也开始探索AI短剧创作。尽管在音乐生成领域的表现尚不温不火，但字节跳动在AI视频生成领域已取得显著成绩，其产品即梦在iOS端的摄影与录像（免费）榜单排名逐渐上升，日均下载量也表现不俗。然而，AI视频生成技术研发成本高和周期长，加上音乐数据的版权问题，都是字节跳动需要面对的挑战。

2. 北大发布FakeShield：多模态LLM图像篡改检测定位框架>>

北京大学的研究人员开发了一种新型多模态框架FakeShield，旨在提高图像伪造检测的准确性和可解释性。随着AIGC技术的发展，图像编辑合成技术变得更加成熟，使得篡改检测的难度增加。FakeShield框架结合了多模态大语言模型的视觉和语言理解能力，不仅能够检测图像真实性，还能生成篡改区域掩膜，并提供详细的解释。该框架通过提出可解释的图像伪造检测与定位（e-IFDL）任务，设计了一个新颖的多模态伪造检测定位框架，解决了现有方法的黑箱问题，提高了模型的分析能力和实用性。FakeShield的主要贡献包括首个多模态大模型框架用于图像篡改检测与定位，构建了多模态篡改描述数据集（MMTD-Set），以及设计了基于领域标签引导的解释性篡改检测模块（DTE-FDM）和多模态篡改定位模块（MFLM）。这些创新使得FakeShield在检测、解释和定位方面展现出高效性和准确性。

3. 智谱AI发布最新自主智能体AutoGLM与情感语音模型GLM-4-Voice>>

智谱AI最近推出了两款创新产品：自主智能体AutoGLM和端到端情感语音模型GLM-4-Voice。AutoGLM是一个能够模拟用户在手机上点击屏幕操作的助手，也能作为浏览器助手执行网页任务，如线上点餐、整理笔记、总结论文等。GLM-4-Voice则是一款情感语音模型，能够模拟真实情感，甚至连细微的停顿和喘气都能惟妙惟肖地表现出来。这些技术突破让人联想到科幻电影《Her》中的场景，预示着人工智能开始具备“情感”与“个性”。AutoGLM目前已适配多款应用软件，覆盖聊天、网购、社交等功能，并且具备自我纠错能力。GLM-4-Voice则结合了自然语言生成和语音合成技术，实现了富有情感的自然对话。智谱AI的这些进展不仅提升了人工智能的交互体验，也为AI手机等智能设备的发展提供了新的动力。

海外.jpg

1. Google DeepMind开发SynthID-Text：AI文本的隐形水印工具>>

Google DeepMind团队开发了一种名为SynthID-Text的新型水印工具，该工具使用“锦标赛抽样”算法在不损害文本质量的前提下，通过嵌入隐形水印，为大语言模型（LLM）生成的每段文本都添加了独特标识，极大提高了文本追踪和检测的精度。这一工具的推出，标志着AI文本透明性和责任性的重大进展，为AI生成内容的溯源和透明性提供了新的解决方案，回应了社会对AI内容可信度的担忧。SynthID-Text显示出比现有方法更高的检测率，且在大规模实验中，非扭曲模式的水印未降低文本质量。这项研究以封面文章的形式发表在Nature期刊上，展示了AI文本生成和水印技术的前景。

2. OpenAI新模型Orion性能传闻超GPT-4百倍，微软Azure或将托管>>

OpenAI计划在12月推出其下一代前沿模型Orion，据传性能可能比现有的GPT-4高出100倍。尽管微软与OpenAI的合作关系似乎出现了裂痕，微软仍在积极准备在Azure平台上托管Orion。Orion模型不会通过ChatGPT平台广泛开放，而是首先向与OpenAI紧密合作的企业提供访问权限。OpenAI首席执行官山姆·阿尔特曼（Sam Altman）已发帖辟谣了关于Orion的传言。尽管如此，微软与OpenAI在技术共享与商业利益之间的矛盾逐渐显现，双方在算力分配和技术资源共享上出现了分歧。此前，OpenAI与微软达成了价值数十亿美元的合作协议，但随着OpenAI逐渐从非营利组织转向营利性实体，双方在股权安排和治理权上的谈判变得复杂。微软也在研发新AI模型，并筹备一系列新的API预计11月发布。

3. Midjourney发布AI修图神器：图像编辑与风格转换新突破>>

AI图像生成领域的领导者Midjourney最近发布了一款外部编辑器，这是一款功能强大的AI工具，能够让用户以各种艺术风格对图像进行调整、修改和重新纹理化。这款工具不仅能够消除图片中的元素，还能无中生有地扩图，将照片转化为点画派、印象派或动画风格等。用户可以上传自己的图像，通过输入文本提示和添加新元素来扩展画布，创造出全新的图像。目前，这项服务仅对订阅一年以上或产生1万积分以上的用户开放，以保持审核标准，防止版权侵权。Midjourney的这一创新展示了AI在图像编辑领域的潜力，尽管其实际应用的范围和影响还有待进一步观察。

标题3.jpg

AI工具箱 >> 点击进入

阿里云汇聚市面上最新、最全面的AI工具。从此，让你的创意不再遥远