浏览器自动化是AI Agents工作流中的核心能力之一。今天要推荐的是Vercel开源的Agent-Browser——一个用Rust编写的高速原生浏览器自动化CLI,专门为AI Agents设计,操控浏览器就像真人操作一样自然。
项目介绍
Agent-Browser是Vercel Labs开源的浏览器自动化工具,完全用Rust编写,追求极致性能和最小资源占用。与传统的Playwright、Puppeteer不同,它不需要Node.js运行时,核心二进制文件即可运行,非常适合集成到AI Agent工作流中。
项目支持自动检测并复用已有的Chrome、Chromium、Playwright等安装,也可以下载Chrome for Testing版本。
主要特色
极致轻量是Agent-Browser的显著特点。Rust编写让它拥有C/C++级别的性能和极低的内存占用,核心二进制文件非常小,启动速度快如闪电。
AI友好的无障碍树输出是另一个核心亮点。通过snapshot命令获取的页面结构包含AI可读的refs编号,让AI Agents可以直接引用元素进行操作,比如点击@e2、填写@e3等,无需自己解析复杂的CSS选择器。
多样化的交互支持包括:单/双击、悬停、拖拽、填表、键盘输入、下拉选择、复选框、滚动、截图、生成PDF等,覆盖了浏览器自动化的方方面面。
截图标注功能是它的独特之处。使用screenshot –annotate可以让截图带上数字标签,直观显示每个可交互元素的位置。
AI聊天控制功能允许用自然语言描述操作,比如”agent-browser chat ‘点击登录按钮并填写用户名'”,AI会自动解析并执行对应操作。
安装步骤
通过npm全局安装(推荐):
npm install -g agent-browser agent-browser install
Homebrew安装(macOS):
brew install agent-browser agent-browser install
Cargo安装(需要Rust):
cargo install agent-browser agent-browser install
Linux系统安装依赖:
agent-browser install --with-deps
从源码编译:
git clone https://github.com/vercel-labs/agent-browser cd agent-browser && pnpm install && pnpm build && pnpm build:native && pnpm link --global agent-browser install
快速使用
打开网页:
agent-browser open example.com
获取页面快照:
agent-browser snapshot
通过ref操作元素:
agent-browser click @e2 agent-browser fill @e3 "test@example.com" agent-browser get text @e1
截图:
agent-browser screenshot page.png agent-browser screenshot --annotate
关闭浏览器:
agent-browser close
适用场景
Agent-Browser适合需要AI Agents执行网页操作的工作流,例如自动填表、数据采集、内容监控、UI测试、社交媒体自动发帖等场景。对于需要定时抓取网页内容或模拟用户行为的自动化任务尤为适合。
开源协议
项目采用MIT协议开源。
服务支持:如有兴趣不会搭建,可以联系微信:WRYD6166,开源项目搭建10-50元。












暂无评论内容