阿里云【AI24小时】2024年7月18日

阿里云Startup平台推出AI24小时系列文章，网罗国内外最新的AI人工智能前沿资讯，帮助AI创业者掌握最新行业资讯。

国内AI.jpg

1. AI浏览器插件：提升生产力的新工具 >>

随着人工智能技术的发展，AI浏览器插件正变得越来越流行。这些插件主要分为三类：基于自有大模型的伴生产品、基于既有模型的“套壳”产品，以及扎根垂直赛道的产品。Kimi智能助手和豆包是这类产品的代表，它们通过浏览器插件提供即时搜索、答疑解惑、全文总结等功能，使用户在浏览网页或进行在线文档编辑时能够获得即时帮助。 Kimi浏览器插件允许用户在任何网页上随时使用AI功能，如搜索、翻译和内容总结。豆包插件则提供了类似功能，并在视频内容总结和收藏功能上领先。Monica插件则基于GPT-4o、Claude 3.5等大模型，提供全能AI助手体验，但需要订阅以解锁更多功能。除了这些通用型AI插件，还有一些专注于特定需求的插件，如通义听悟和沉浸式翻译。通义听悟能够实现网页语音转文字和实时双语字幕，而沉浸式翻译则提供网页、视频和PDF的双语对照翻译。尽管AI浏览器插件带来了便利，但它们也存在一些问题，如功能重叠和过度的存在感，可能会干扰用户的上网体验。用户在选择使用这些插件时可能会面临选择困难，因为它们在某些功能上非常相似。此外，AI插件的发展也反映了AI产品在寻找更多细分场景和积累用户数据方面的需求。浏览器插件作为一种灵活的测试形态，有助于AI产品更好地融入用户的日常生活。未来，随着AI技术的不断进步，浏览器插件可能会成为我们与AI交互的主要方式之一。

海外.jpg

1. MSRA提出视频上下文学习，大模型学会模仿生成 >>

微软亚洲研究院（MSRA）提出了一种名为“视频上下文学习”（Video In-Context Learning, Vid-ICL）的新方法，使大型AI模型能够通过一段示例视频来指导生成新场景下的视频。这种方法允许生成的视频在新场景中模仿示例视频中的任务，例如物体移动或抓取等动作。Vid-ICL利用Transformer作为模型结构，通过自回归模型训练和零样本能力，实现了对视频内容的理解和生成。该方法不仅能够生成高质量的视频，还能够与模拟器结合，实现与真实环境的交互。Vid-ICL的实验结果显示，它在视频质量和语义一致性方面均优于基准模型，展示了其在视频生成和环境交互中的潜力。该技术有望在多个领域，如电影制作、游戏开发和机器人控制等，发挥重要作用。

2. 大型AI公司被曝违规使用油管数据训练模型 >>

苹果、英伟达、Anthropic等大型AI公司被曝在未经博主知情或同意的情况下，使用来自YouTube的173536个视频字幕数据训练其AI模型。这些数据覆盖了48000个频道，包括可汗学院、MIT、华尔街日报、吉米秀等知名频道。这些公司并非直接从YouTube获取数据，而是通过非营利组织Eleuther AI提供的公开数据集。Eleuther AI曾发布名为“Pile”的开源数据集，包含YouTube、维基百科等数据，供AI研究人员和开发者使用。目前，英伟达拒绝置评，苹果未予回应，而Anthropic和Salesforce均表示他们使用的是公开可用的数据集。这一事件引发了对数据所有权和AI侵权问题的广泛关注。同时，使用这些数据也存在风险，因为YouTube上的字幕数据可能包含脏话、偏见等内容。

3. 新型神经网络RTNet模拟人类决策，助力医疗诊断和自动驾驶 >>

佐治亚理工学院的研究团队开发了一种新型神经网络模型RTNet，能够模拟人类的感知决策过程。RTNet不仅能够生成随机决策，还能达到类似人类的响应时间分布。与传统的卷积神经网络（CNN）相比，RTNet在处理复杂图像时能够根据任务的复杂程度调整反应时间和准确度。研究团队通过全面的测试发现，RTNet在准确性、响应时间和置信度上的表现优于多个当前先进的神经网络模型。这项研究为开发更接近真实人脑的神经网络提供了新的思路，未来RTNet有望在医疗诊断、自动驾驶和人机交互等领域发挥重要作用。尽管RTNet在模拟人类行为方面表现出色，但仍存在局限性，未来研究可以进一步优化其生物学合理性，例如引入递归处理机制，并使用其他方法来设置每个连接的噪声级别，以更好地模拟人类大脑的处理方式。

标题3.jpg

AI工具箱 >> 点击进入

阿里云汇聚市面上最新、最全面的AI工具。从此，让你的创意不再遥远

阿里云AI创业者社区

#阿里云 #创新创业 #创业扶持#AI创业

AI创业者专区为创新者提供最新的行业资讯和资源,促进人工智能领域的创业创新和合作

>>>进入阿里云AI创业者社区