OmniParser微软新UI解析器完胜GPT4V已经开源

shadowrocket • 2026年1月20日 am8:02 • Shadowrocket官网

微软开源的 OmniParser的UI解析器居然完胜了GPT-4V！

微软放出了一个名为OmniParser的UI解析器，而且还是开源的！最厉害的是，它在屏幕理解基准测试中居然完胜了GPT-4V！

见：https://huggingface.co/microsoft/OmniParser

那么，这个OmniParser到底有什么过人之处呢？

OmniParser：解剖UI的利器

OmniParser是一个通用的屏幕解析工具，它能够将UI截图解释并转换为结构化格式。这听起来可能有点抽象，但其实就是让机器能够"看懂"屏幕上的各种元素。

比如说，它能识别出哪些区域是可以点击的，哪些图标代表什么功能。这对于开发自动化工具或者AI助手来说，简直就是一个神器！

最关键的是，OmniParser是开源的，而且采用了MIT许可证。

这意味着，任何人都可以免费使用、修改甚至再分发这个工具。对于开发者和研究人员来说，这无疑是一个重大利好。

训练数据的关键在细节

OmniParser之所以能有如此出色的表现，很大程度上要归功于其训练数据的精心设计。

研究团队使用了两个特别的数据集：

可交互图标检测数据集：这个数据集是从热门网页中精心挑选并自动标注的，重点标记了可点击和可操作的区域。

图标描述数据集：这个数据集则专门设计用来将每个UI元素与其对应的功能联系起来。

有了这两个数据集，OmniParser就能准确地识别UI中的各个元素，并理解它们的功能。这也是为什么它能在屏幕理解基准测试中表现出色的原因。

技术细节：YOLOv8和BLIP-2的结合

从技术角度来看，OmniParser其实是两个模型的组合：

一个是在上述数据集上微调的YOLOv8模型

另一个是同样经过微调的BLIP-2模型

这两个模型各司其职，一个负责定位，一个负责理解，共同构成了OmniParser强大的功能基础。

更有趣的是，研究人员还尝试将这个模型用于开放集检测中的可交互区域识别。结果显示，它的表现甚至超过了像GroundingDINO这样现成的开放集检测器。这为OmniParser的应用前景又开辟了一片新天地。

实际应用：解锁RPA代理的智能行为

OmniParser的强大不仅体现在理论基准上，在实际应用中也展现出了惊人的潜力。

研究团队在Mind2Web（一个网页导航基准）上测试了OmniParser的能力。结果表明，这个模型可以为RPA（机器人流程自动化）代理解锁智能行为。

这意味着，以后我们可能不再需要那些容易出错的Web自动化流程了。即使网站或应用的设计发生变化，基于OmniParser的自动化工具也能轻松应对。

这对于企业自动化、测试工程师，搞爬虫的，甚至是普通用户来说，都是一个重大的利好消息。

负责任的AI考量

当然，任何强大的工具都有其局限性和潜在风险。微软在发布OmniParser时，也特别强调了一些负责任的AI考量：

OmniParser主要用于将非结构化的截图转换为结构化的元素列表，包括可交互区域的位置和图标的潜在功能说明。

虽然OmniParser本身不会检测输入中的有害内容，但用户在使用时应该遵循常见的安全标准。

对于OmniParser-BLIP2，可能会错误地推断图标图像中个人的性别或其他敏感属性（如种族、宗教等）。这种推断可能依赖于刻板印象和泛化，而不是关于特定个人的信息，对于边缘化群体更可能是不正确的。

UFO 项目

而此前不久，微软还发布了一个名为UFO 的开源项目。 UF O是一个面向UI的Windows操作系统交互代理框架，旨在通过在单个或多个应用程序中无缝导航和操作来满足用户在Windows操作系统上的请求。

见：https://github.com/microsoft/UFO

看来在computer use 的路上，都在各自发力呢。

版权声明：
作者：shadowrocket
链接：https://www.shadowrocket8.top/111.html
来源：Shadowrocket官网
文章版权归作者所有，未经允许请勿转载。

THE END

二维码

苹果超级加持RAG技术93倍加速推理

< <上一篇

普林斯顿大学限制AI访问将带来负面影响LeCun开源终将胜利

下一篇>>

搜索内容

OmniParser微软新UI解析器完胜GPT4V已经开源

取消回复

共有 0 条评论

Shadowrocket高速节点推荐

热门文章

好用的小火箭节点推荐 Shadowrocket 高速节点

OmniParser微软新UI解析器完胜GPT4V已经开源

取消回复

共有 0 条评论

Shadowrocket高速节点推荐

热门文章

好用的小火箭节点推荐 Shadowrocket 高速节点