OmniParser V2
将任何LLM转变为计算机使用代理
2025-02-15

OmniParser将UI截图从像素空间‘标记化’为截图中的结构化元素,这些元素可由大型语言模型解析。这使得大型语言模型能够基于一组解析后的可交互元素进行检索,进而预测下一步操作。
OmniParser V2通过将UI截图转换为结构化、可解释的元素,使任何大型语言模型(LLM)转变为能够胜任的计算机使用代理。它解决了GUI自动化中的关键挑战,如识别可交互图标和理解语义元素,使LLM能够基于解析的数据预测并执行下一步行动。与前一版本相比,升级版在检测小元素时准确率更高,推理速度更快,延迟减少了60%。通过在大量交互元素和图标标题数据上进行训练,OmniParser V2实现了最先进的性能,尤其是与GPT-4o配对使用时。此外,OmniTool是一个docker化的Windows系统,便于与各种LLM进行无缝实验,整合了屏幕理解、基础、行动规划和执行。OmniParser遵循负责任的AI实践,强调伦理使用和风险缓解,确保安全有效的自动化。
User Experience
Artificial Intelligence
GitHub
Computers