HyperAIHyperAI

Command Palette

Search for a command to run...

WebSight:一种面向视觉的鲁棒网络智能体架构

Tanvir Bhathal Asanshay Gupta

Abstract

我们提出 WebSight,这是一种基于视觉的自主网络代理,能够仅通过视觉感知与网页环境进行交互,无需依赖 HTML 或 DOM 等结构化输入。在本方法的核心,我们引入了新型模型 WebSight-7B——一个针对用户界面(UI)元素交互任务优化的微调视觉语言模型,该模型基于 Wave-UI-25K 数据集中的网页专用子集,采用 LoRA(低秩适应)技术进行训练。WebSight 将该模型整合进一个模块化多代理架构中,包含规划、推理、视觉-动作以及验证四个代理模块,并通过一种情景记忆机制实现协同调度。

WebSight-7B 在 Showdown Clicks 基准测试中实现了 58.84% 的 top-1 准确率,优于多个参数量更大的通用模型,同时保持更低的延迟。完整的 WebSight 代理在 WebVoyager 基准测试中达到 68.0% 的任务成功率,超越了来自 OpenAI(61.0%)和 HCompany(Runner H,67.0%)等机构的系统表现。在完成的任务中,WebSight 的正确回答率达 97.14%,展现出极高的精度。综上所述,WebSight 与 WebSight-7B 共同树立了可解释性、鲁棒性与高效性兼具的视觉化网页导航新标准。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供