OmniParser V2

将任何LLM转变为计算机使用代理

2025-02-15

OmniParser将UI截图从像素空间‘标记化’为截图中的结构化元素，这些元素可由大型语言模型解析。这使得大型语言模型能够基于一组解析后的可交互元素进行检索，进而预测下一步操作。

OmniParser V2通过将UI截图转换为结构化、可解释的元素，使任何大型语言模型（LLM）转变为能够胜任的计算机使用代理。它解决了GUI自动化中的关键挑战，如识别可交互图标和理解语义元素，使LLM能够基于解析的数据预测并执行下一步行动。与前一版本相比，升级版在检测小元素时准确率更高，推理速度更快，延迟减少了60%。通过在大量交互元素和图标标题数据上进行训练，OmniParser V2实现了最先进的性能，尤其是与GPT-4o配对使用时。此外，OmniTool是一个docker化的Windows系统，便于与各种LLM进行无缝实验，整合了屏幕理解、基础、行动规划和执行。OmniParser遵循负责任的AI实践，强调伦理使用和风险缓解，确保安全有效的自动化。

产品网站

Product Hunt

User Experience Artificial Intelligence GitHub Computers

OmniParser V2

将任何LLM转变为计算机使用代理

Influencer AI

CapybaraDB Beta