【开源】Vercel Agent-Browser:Rust编写的浏览器自动化CLI,让AI Agents操控浏览器像人一样自然

浏览器自动化是AI Agents工作流中的核心能力之一。今天要推荐的是Vercel开源的Agent-Browser——一个用Rust编写的高速原生浏览器自动化CLI,专门为AI Agents设计,操控浏览器就像真人操作一样自然。

项目介绍

Agent-Browser是Vercel Labs开源的浏览器自动化工具,完全用Rust编写,追求极致性能和最小资源占用。与传统的Playwright、Puppeteer不同,它不需要Node.js运行时,核心二进制文件即可运行,非常适合集成到AI Agent工作流中。

项目支持自动检测并复用已有的Chrome、Chromium、Playwright等安装,也可以下载Chrome for Testing版本。

主要特色

极致轻量是Agent-Browser的显著特点。Rust编写让它拥有C/C++级别的性能和极低的内存占用,核心二进制文件非常小,启动速度快如闪电。

AI友好的无障碍树输出是另一个核心亮点。通过snapshot命令获取的页面结构包含AI可读的refs编号,让AI Agents可以直接引用元素进行操作,比如点击@e2、填写@e3等,无需自己解析复杂的CSS选择器。

多样化的交互支持包括:单/双击、悬停、拖拽、填表、键盘输入、下拉选择、复选框、滚动、截图、生成PDF等,覆盖了浏览器自动化的方方面面。

截图标注功能是它的独特之处。使用screenshot –annotate可以让截图带上数字标签,直观显示每个可交互元素的位置。

AI聊天控制功能允许用自然语言描述操作,比如”agent-browser chat ‘点击登录按钮并填写用户名'”,AI会自动解析并执行对应操作。

安装步骤

通过npm全局安装(推荐):

npm install -g agent-browser
agent-browser install

Homebrew安装(macOS):

brew install agent-browser
agent-browser install

Cargo安装(需要Rust):

cargo install agent-browser
agent-browser install

Linux系统安装依赖:

agent-browser install --with-deps

从源码编译:

git clone https://github.com/vercel-labs/agent-browser
cd agent-browser && pnpm install && pnpm build && pnpm build:native && pnpm link --global
agent-browser install

快速使用

打开网页:

agent-browser open example.com

获取页面快照:

agent-browser snapshot

通过ref操作元素:

agent-browser click @e2
agent-browser fill @e3 "test@example.com"
agent-browser get text @e1

截图:

agent-browser screenshot page.png
agent-browser screenshot --annotate

关闭浏览器:

agent-browser close

适用场景

Agent-Browser适合需要AI Agents执行网页操作的工作流,例如自动填表、数据采集、内容监控、UI测试、社交媒体自动发帖等场景。对于需要定时抓取网页内容或模拟用户行为的自动化任务尤为适合。

开源协议

项目采用MIT协议开源。


服务支持:如有兴趣不会搭建,可以联系微信:WRYD6166,开源项目搭建10-50元。

© 版权声明
THE END
喜欢就支持一下吧
点赞10 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容