阿里云Startup平台推出AI24小时系列文章,网罗国内外最新的AI人工智能前沿资讯,帮助AI创业者掌握最新行业资讯。
1. AI浏览器插件:提升生产力的新工具 >>
随着人工智能技术的发展,AI浏览器插件正变得越来越流行。这些插件主要分为三类:基于自有大模型的伴生产品、基于既有模型的“套壳”产品,以及扎根垂直赛道的产品。Kimi智能助手和豆包是这类产品的代表,它们通过浏览器插件提供即时搜索、答疑解惑、全文总结等功能,使用户在浏览网页或进行在线文档编辑时能够获得即时帮助。 Kimi浏览器插件允许用户在任何网页上随时使用AI功能,如搜索、翻译和内容总结。豆包插件则提供了类似功能,并在视频内容总结和收藏功能上领先。Monica插件则基于GPT-4o、Claude 3.5等大模型,提供全能AI助手体验,但需要订阅以解锁更多功能。 除了这些通用型AI插件,还有一些专注于特定需求的插件,如通义听悟和沉浸式翻译。通义听悟能够实现网页语音转文字和实时双语字幕,而沉浸式翻译则提供网页、视频和PDF的双语对照翻译。 尽管AI浏览器插件带来了便利,但它们也存在一些问题,如功能重叠和过度的存在感,可能会干扰用户的上网体验。用户在选择使用这些插件时可能会面临选择困难,因为它们在某些功能上非常相似。 此外,AI插件的发展也反映了AI产品在寻找更多细分场景和积累用户数据方面的需求。浏览器插件作为一种灵活的测试形态,有助于AI产品更好地融入用户的日常生活。未来,随着AI技术的不断进步,浏览器插件可能会成为我们与AI交互的主要方式之一。
1. MSRA提出视频上下文学习,大模型学会模仿生成 >>
微软亚洲研究院(MSRA)提出了一种名为“视频上下文学习”(Video In-Context Learning, Vid-ICL)的新方法,使大型AI模型能够通过一段示例视频来指导生成新场景下的视频。这种方法允许生成的视频在新场景中模仿示例视频中的任务,例如物体移动或抓取等动作。Vid-ICL利用Transformer作为模型结构,通过自回归模型训练和零样本能力,实现了对视频内容的理解和生成。该方法不仅能够生成高质量的视频,还能够与模拟器结合,实现与真实环境的交互。Vid-ICL的实验结果显示,它在视频质量和语义一致性方面均优于基准模型,展示了其在视频生成和环境交互中的潜力。该技术有望在多个领域,如电影制作、游戏开发和机器人控制等,发挥重要作用。
2. 大型AI公司被曝违规使用油管数据训练模型 >>
苹果、英伟达、Anthropic等大型AI公司被曝在未经博主知情或同意的情况下,使用来自YouTube的173536个视频字幕数据训练其AI模型。这些数据覆盖了48000个频道,包括可汗学院、MIT、华尔街日报、吉米秀等知名频道。这些公司并非直接从YouTube获取数据,而是通过非营利组织Eleuther AI提供的公开数据集。Eleuther AI曾发布名为“Pile”的开源数据集,包含YouTube、维基百科等数据,供AI研究人员和开发者使用。目前,英伟达拒绝置评,苹果未予回应,而Anthropic和Salesforce均表示他们使用的是公开可用的数据集。这一事件引发了对数据所有权和AI侵权问题的广泛关注。同时,使用这些数据也存在风险,因为YouTube上的字幕数据可能包含脏话、偏见等内容。
3. 新型神经网络RTNet模拟人类决策,助力医疗诊断和自动驾驶 >>
佐治亚理工学院的研究团队开发了一种新型神经网络模型RTNet,能够模拟人类的感知决策过程。RTNet不仅能够生成随机决策,还能达到类似人类的响应时间分布。与传统的卷积神经网络(CNN)相比,RTNet在处理复杂图像时能够根据任务的复杂程度调整反应时间和准确度。研究团队通过全面的测试发现,RTNet在准确性、响应时间和置信度上的表现优于多个当前先进的神经网络模型。这项研究为开发更接近真实人脑的神经网络提供了新的思路,未来RTNet有望在医疗诊断、自动驾驶和人机交互等领域发挥重要作用。尽管RTNet在模拟人类行为方面表现出色,但仍存在局限性,未来研究可以进一步优化其生物学合理性,例如引入递归处理机制,并使用其他方法来设置每个连接的噪声级别,以更好地模拟人类大脑的处理方式。
AI工具箱 >> 点击 进入
阿里云汇聚市面上最新、最全面的AI工具。从此,让你的创意不再遥远
评论