创新中心
个人中心
创新中心
个人中心

《2024年人工智能指数报告》系列文章三:技术性能

阿里云创新中心> 创业资讯> 《2024年人工智能指数报告》系列文章三:技术性能

《2024年人工智能指数报告》系列文章三:技术性能

AI研译所 2024-04-22 14:21:11 793
一同审视人工智能(AI)在当前社会中的发展和影响,整体回顾AI技术性能演化,深度探讨如何通过提示、优化和精细调整来提高大型语言模型的性能。

斯坦福大学人工智能研究院于最近发布了《2024年人工智能指数报告》(《Artificial Intelligence Index Report 2024》)。为我们提供了一个全面深入AI的视角,以审视人工智能(AI)在当前社会中的发展和影响。今天是AI研译所系列文章的第三篇,聚焦报告中第二章节的核心观点,主题为「技术性能」。

第2章:技术性能

在本年度的AI指数报告中,技术表现章节全面回顾了2023年人工智能的最新进展。该部分首先提供了对AI技术性能演化的整体回顾。此后,章节深入分析了多个AI领域的现状,如语言处理、编程、计算机视觉(图像与视频分析)、推理、音频处理、自主系统、机器人技术,以及强化学习。同时,章节还突出展示了过去一年中AI领域的重大研究成果,深度探讨了如何通过提示、优化和精细调整来提高大型语言模型的性能,并以分析AI系统对环境的影响作为本章的最终部分。

1. AI在特定任务上超越人类,但并非无所不胜。

在10个精选的AI基准测试中,关闭源代码的模型普遍表现优于开放源代码模型,平均性能领先24.2%。这一性能差异对于AI相关政策的讨论具有重要启示。

image

2. 多模态AI的崛起。

传统的AI系统通常功能单一,语言模型在文本理解方面表现突出,但在图像处理上却不尽如人意,反之亦然。然而,近期的技术进展催生了更为强大的多模态模型,如Google的Gemini和OpenAI的GPT-4。这些模型不仅灵活多用,能同时处理图片与文字信息,并在一些情况下甚至能处理音频数据。

3. 各类新兴、高难度AI基准测试陆续登场

面对AI模型在ImageNet、SQuAD和SuperGLUE等成熟基准测试中表现趋于饱和的状况,研究者们纷纷推出了一系列具有较大挑战性的新型测试。2023年涌现出多个新基准,包括评测编程能力的SWE-bench,图像生成技术的HEIM,普遍推理能力的MMMU,道德推理测评的MoCa,代理行为分析的AgentBench,以及用于检验AI虚构信息生成偏差的HaluEval。

image

4. AI的持续进步不仅带来了更高质量的数据,而且还促进了AI技术的进一步提升。

新型AI模型,如SegmentAnything和Skoltech,通过为图像分割、三维重建等特定任务生成专门的数据,正在推动技术前沿。数据质量直接影响AI技术的进步,而通过AI技术生成更多、更精准的数据则进一步加强了现有的技术能力,为未来解决更加复杂的问题和算法的优化铺垫了基础。

image

5.引入人类评价为新趋势。

在生成模型不断创造出高品质的文本和图像的当下,评价AI性能的方式开始逐渐融入人类的主观评估,比如通过Chatbot Arena排行榜的形式,而非完全依赖于ImageNet或SQuAD这类自动化的计算机评级系统。公众对于AI的认知和感受正逐步成为衡量AI进步的一项关键指标。 image

6. 借助大型语言模型,机器人技术实现灵活性飞跃。

语言模型与机器人学的融合诞生了如PaLM-E和RT-2等更加灵活的机器人系统。这些系统不仅提升了机器人的基础功能,还赋予了它们提问的能力,这代表了向着能与现实世界进行更加有效交互的机器人发展迈进了一大步。 image

7. 代理型AI领域的技术研究取得突破。

在开发能够在定制环境中自主操作的AI代理方面,计算机科学家们进行了长期而复杂的探索。但近期的研究显示,自主代理AI的表现有显著提升。当前的AI代理已经能够精通包括Minecraft在内的复杂游戏,并且在执行现实任务方面也表现出色,诸如在线购物和提供研究辅助等。

image

8. 在众多评比中,封闭源大型语言模型大幅领先于开源模型。

根据10项精选的AI基准测试结果显示,封闭源模型比开源模型表现更佳,平均具有24.2%的性能提升优势。这种在封闭源和开源模型之间的性能差异,对于未来AI领域的政策讨论具有深远影响。

image

可以点击以下链接获取原报告:https://startup.aliyun.com/special/download?&id=9454

文章来源:https://aiindex.stanford.edu/report/


往期回顾:

《2024年人工智能指数报告》系列文章一:概述

《2024年人工智能指数报告》系列文章二:研究与开发


image

#阿里云 #创新创业 #创业扶持 #创业资讯

我们关注国内外最热的创新创业动态,提供一站式的资讯服务,实时传递行业热点新闻、深度评测以及前瞻观点,帮助各位创业者掌握新兴技术趋势及行业变革,洞察未来科技走向。

>>>点击进入 更多创新创业资讯

版权声明: 创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余文章均来自所标注的来源,版权归原作者或来源方所有,且已获得相关授权,创新中心「创业资讯」平台不拥有其著作权,亦不承担相应法律责任。如果您发现本平台中有涉嫌侵权的内容,可填写「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。