微软开源OmniParser

阿里云创新中心> 创业资讯> 微软开源OmniParser
0
0

微软开源OmniParser

Micheli 2024-10-28 00:00:00 631
控制电脑手机的智能体人人都能造,微软开源OmniParser。
控制电脑手机的智能体人人都能造,微软开源OmniParser。这篇文章讨论了利用大型模型控制计算机和智能手机的最新研究和应用。文章特别提到了微软的开源项目OmniParser,这是一个屏幕解析工具,能够将用户界面截图转换为结构化元素,其能力有可能超越GPT-4V。OmniParser的开发意味着不久之后,个人可能就能够创建自己的计算机控制代理。OmniParser的优势在于它能够提高人工智能模型在界面区域生成精确操作的性能,这一点已在WindowsAgentArena等基准测试中得到证明。这项技术的实际应用前景广阔,有可能使得个人计算任务的智能代理创建变得普及。- 近期出现了多个具备控制计算机能力的大模型,包括Anthropic的Claude 3.5 Sonnet、荣耀MagicOS 9.0、智谱的AutoGLM和华为的LiMAC。 - 苹果发布了Ferret-UI技术,可以让大模型理解手机屏幕。 - 微软开源了OmniParser,一个基于大模型的屏幕解析工具,能将UI截图转换成结构化的元素。 - OmniParser的解析能力达到了当前最佳水平,甚至超越了GPT-4V。 - OmniParser可以与其他模型(如GPT-4V、Phi-3.5和Llama 3.2)结合,创造出可以理解并控制计算机的智能体。 - OmniParser的开发基于两个数据集:一个可交互区域检测数据集和一个图标描述数据集。 - OmniParser在多个基准测试中表现出色,包括ScreenSpot、Mind2Web和AITW。 - OmniParser可作为各种视觉-语言模型(VLM)的插件,可以解析用户屏幕而无需额外信息。 - OmniParser与新版Claude 3.5 Sonnet的结合效果可能很好。

后缀.jpg

版权声明: 创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。

评论

登录后可评论