微软发布OmniParser V2.0：让模型变身计算机可用AI Agent！，惊！微软OmniParser V2.0提升巨大，助力模型转AI Agent

Wonderful • 2025年2月17日 08:05 • 教育 • 阅读 31

微软在官网推出了视觉Agent解析框架OmniParser的V2.0版本，这个版本能够把DeepSeek - R1、GPT - 4o、Qwen - 2.5VL等模型转化为能在计算机使用的AI Agent。并且阐述了V2.0版本相比V1版本在检测小的可交互UI元素时准确率更高、推理速度更快、延迟降低60%等优势，还提及在高分辨率Agent基准测试中，V2 GPT - 4o的准确率与原始准确率的巨大提升情况，最后介绍微软开源的omnitool，这一基于Docker的Windows系统在将大模型变成Agent过程中的关键功能。

微软于其官方网站推出了视觉Agent解析框架OmniParser的全新版本V2.0。这一版本的意义非凡，它具备一种强大的能力，那就是可以把诸如DeepSeek - R1、GPT - 4o、Qwen - 2.5VL之类的模型转化为能够在计算机上使用的AI Agent。想象一下，这些模型原本可能在计算机使用场景中有一定的局限性，但是通过OmniParser V2.0的转换，它们就像是获得了新的生命力，能够更好地在计算机环境中发挥AI Agent的作用。

与之前的V1版本相比较，OmniParser V2.0在很多方面都有了显著的进步。当面对那些比较小的可交互UI元素的时候，它的准确率得到了很大的提升。就好像是在寻找非常微小的目标时，它的“视力”变得更加敏锐了。而且它的推理速度也更快了，这就如同一个思维敏捷的人，在处理问题时能够迅速得出结论。更值得一提的是，它的延迟降低了60%，这意味着在使用过程中，系统的反应更加迅速，几乎能够做到即时响应，大大提升了用户体验。

在高分辨率Agent基准测试ScreenSpot Pro中，OmniParser V2.0与GPT - 4o相结合所展现出来的效果令人惊叹。其准确率竟然达到了39.6%，而GPT - 4o原本的准确率仅仅只有0.8%，这样巨大的提升幅度是非常可观的。这就好比是一个原本成绩不太好的学生，经过某种特殊的训练（OmniParser V2.0的作用）之后，成绩一下子变得非常优秀了。

除了这个令人兴奋的OmniParser V2.0版本之外，微软还做出了一个开源的举措。他们开源了omnitool，这是一个基于Docker的Windows系统。这个系统可不简单，它涵盖了屏幕理解、定位、动作规划和执行等多方面的功能。可以说，它就像是一座桥梁，是将大模型转化为Agent的关键工具。如果把大模型变成Agent的过程看作是一场旅行，那么omnitool就是旅途中不可或缺的交通工具，为整个转化过程提供了重要的支持。

本文总结了微软发布OmniParser V2.0版本的重大意义，包括它能将多种模型转化为计算机可用的AI Agent，在性能上相比V1版本有准确率提高、推理速度加快、延迟降低等优势，在特定基准测试中提升明显，以及微软开源的omnitool在将大模型转化为Agent过程中的关键作用。

原创文章，作者：Wonderful，如若转载，请注明出处：https://www.gouwuzhinan.com/archives/18375.html

微软发布OmniParser V2.0：让模型变身计算机可用AI Agent！，惊！微软OmniParser V2.0提升巨大，助力模型转AI Agent

相关推荐

高中生物考点大集合，速来掌握！

地铁27号线：串联多区，助力深圳都市核心区扩容

春节消费热潮背后的中国内需密码 春节消费：中国经济回稳向好的例证

庭院经济：小天地蕴含大潜力，提振消费方案下，庭院经济如何突围？

音乐达人金文凯：用音符激活乡村多元业态

发表回复

春节消费热潮背后的中国内需密码春节消费：中国经济回稳向好的例证