外观
约 113 字小于 1 分钟
2025-02-25
OmniParser 是一种将用户界面屏幕截图解析为结构化且易于理解的元素的综合方法,这显着增强了 GPT-4V 生成可以准确基于界面相应区域的动作的能力。
GitHub OmniParser
OmniParser V2 文章
版权归属:唐道勇
本文链接:/llm/microsoft/rbmpsarm.html
许可证:Copyright © 2022-present tangdaoyong