OmniParser微软新UI解析器完胜GPT4V已经开源

微软开源的 OmniParser的UI解析器居然完胜了GPT-4V!

OmniParser微软新UI解析器完胜GPT4V已经开源-2

微软放出了一个名为OmniParser的UI解析器,而且还是开源的!最厉害的是,它在屏幕理解基准测试中居然完胜了GPT-4V!

见:https://huggingface.co/microsoft/OmniParser

那么,这个OmniParser到底有什么过人之处呢?

OmniParser:解剖UI的利器

OmniParser是一个通用的屏幕解析工具,它能够将UI截图解释并转换为结构化格式。这听起来可能有点抽象,但其实就是让机器能够"看懂"屏幕上的各种元素。

OmniParser微软新UI解析器完胜GPT4V已经开源-3

比如说,它能识别出哪些区域是可以点击的,哪些图标代表什么功能。这对于开发自动化工具或者AI助手来说,简直就是一个神器!

最关键的是,OmniParser是开源的,而且采用了MIT许可证。

这意味着,任何人都可以免费使用、修改甚至再分发这个工具。对于开发者和研究人员来说,这无疑是一个重大利好。

训练数据的关键在细节

OmniParser之所以能有如此出色的表现,很大程度上要归功于其训练数据的精心设计。

研究团队使用了两个特别的数据集:

可交互图标检测数据集 :这个数据集是从热门网页中精心挑选并自动标注的,重点标记了可点击和可操作的区域。

图标描述数据集 :这个数据集则专门设计用来将每个UI元素与其对应的功能联系起来。

有了这两个数据集,OmniParser就能准确地识别UI中的各个元素,并理解它们的功能。这也是为什么它能在屏幕理解基准测试中表现出色的原因。

技术细节:YOLOv8和BLIP-2的结合

从技术角度来看,OmniParser其实是两个模型的组合:

一个是在上述数据集上微调的YOLOv8模型

另一个是同样经过微调的BLIP-2模型

这两个模型各司其职,一个负责定位,一个负责理解,共同构成了OmniParser强大的功能基础。

OmniParser微软新UI解析器完胜GPT4V已经开源-4

更有趣的是,研究人员还尝试将这个模型用于开放集检测中的可交互区域识别。结果显示,它的表现甚至超过了像GroundingDINO这样现成的开放集检测器。这为OmniParser的应用前景又开辟了一片新天地。

实际应用:解锁RPA代理的智能行为

OmniParser的强大不仅体现在理论基准上,在实际应用中也展现出了惊人的潜力。

研究团队在Mind2Web(一个网页导航基准)上测试了OmniParser的能力。结果表明, 这个模型可以为RPA(机器人流程自动化)代理解锁智能行为 。

这意味着,以后我们可能不再需要那些容易出错的Web自动化流程了。即使网站或应用的设计发生变化,基于OmniParser的自动化工具也能轻松应对。

这对于企业自动化、测试工程师,搞爬虫的,甚至是普通用户来说,都是一个重大的利好消息。

负责任的AI考量

当然,任何强大的工具都有其局限性和潜在风险。微软在发布OmniParser时,也特别强调了一些负责任的AI考量:

OmniParser主要用于将非结构化的截图转换为结构化的元素列表,包括可交互区域的位置和图标的潜在功能说明。

虽然OmniParser本身不会检测输入中的有害内容,但用户在使用时应该遵循常见的安全标准。

对于OmniParser-BLIP2,可能会错误地推断图标图像中个人的性别或其他敏感属性(如种族、宗教等)。这种推断可能依赖于刻板印象和泛化,而不是关于特定个人的信息,对于边缘化群体更可能是不正确的。

UFO 项目

而此前不久,微软还发布了一个名为UFO 的开源项目。 UF O是 一个面向UI的Windows操作系统交互代理 框架,旨在通过在单个或多个应用程序中无缝导航和操作来满足用户在Windows操作系统上的请求。

见:https://github.com/microsoft/UFO

看来在computer use 的路上,都在各自发力呢。

OmniParser微软新UI解析器完胜GPT4V已经开源-5

版权声明:
作者:shadowrocket
链接:https://www.shadowrocket8.top/111.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>