browser-use:让 AI 智能体操控浏览器的网页自动化框架
项目简介
browser-use 是一个开源 Python 库,旨在”让网站能被 AI 智能体访问和操控”,以最简单的方式实现浏览器自动化。开发者可以用自然语言指令让 AI 控制真实浏览器完成复杂网页任务,如填写表单、点击按钮、抓取数据、进行搜索等。
browser-use 兼容 Cursor、Claude Code 等主流 AI 编程工具,支持有头和无头两种浏览器模式,提供 Docker 云端版本跳过本地安装步骤,在 GitHub 拥有超过 8.7 万颗星标,是 AI 浏览器自动化领域最受欢迎的开源项目之一。
核心特色功能
自然语言驱动浏览器操作: 无需学习 Selenium 或 Playwright 的复杂 API,直接用自然语言描述任务,browser-use 转化为浏览器操作。
多智能体并发支持: 支持同时运行多个 AI 智能体,各自从独立浏览器实例执行任务,大幅提升批量网页处理效率。
多标签页管理: 自动管理浏览器标签页,支持标签页间切换、数据传递等操作。
视觉理解集成: 内置视觉模型支持,能理解网页内容并做出决策,适合处理动态网页和复杂交互。
云端版本(Browser Use Cloud): 无需安装配置,直接调用云端浏览器,支持高速、可扩展、隐身模式的浏览器自动化。
完整文档和示例: 提供 docs.browser-use.com 完整文档,包含数十个常见场景的代码示例。
安装步骤
前置要求:
– Python 3.11+
– uv 包管理器(推荐)或 pip
– Chromium 浏览器(uvx browser-use install 自动安装)
方式一:uv 安装(推荐)
bash
uv init
uv add browser-use
uv sync
如果 Chromium 未安装,运行:
bash
uvx browser-use install
方式二:pip 安装
bash
pip install browser-use
python -m browser_use install chromium
方式三:Docker 云端版本(跳过本地安装)
访问 https://cloud.browser-use.com 注册账号获取 API Key,直接调用云端服务,无需任何安装。
使用方法
基础示例:让 AI 搜索网页
“`python
from browser_use import Agent
from langchain_openai import ChatOpenAI
llm = ChatOpenAI(model=”gpt-4o”)
agent = Agent(
task=”在 Google 上搜索 2026 年 AI 发展趋势,并总结前 5 个结果”,
llm=llm,
)
agent.run()
“`
处理复杂表单:
“`python
from browser_use import Agent
from langchain_anthropic import ChatAnthropic
llm = ChatAnthropic(model=”claude-sonnet-4-20250514″)
agent = Agent(
task=”打开 https://example.com/form,填写姓名、邮箱、留言内容,然后点击提交按钮”,
llm=llm,
)
agent.run()
“`
批量数据抓取:
“`python
from browser_use import Agent
from langchain_openai import ChatOpenAI
tasks = [
“打开 GitHub 搜索 ‘AI agent’,获取前 10 个仓库的名称和星标数”,
“打开 Hacker News,获取今日最热门的 5 篇文章标题”,
“打开天气预报网站,查询北京未来 3 天天气”,
]
llm = ChatOpenAI(model=”gpt-4o”)
并发执行多个任务
for task in tasks:
agent = Agent(task=task, llm=llm)
agent.run()
“`
配合 Claude Code 使用:
- 在 Claude Code 中打开 Agents.md 配置
- 让 AI 读取 browser-use 文档
- 用自然语言描述任务,AI 自动调用 browser-use 完成
Docker 部署本地服务:
bash
docker run -d -p 8000:8000 \
-e OPENAI_API_KEY=your_key \
browseruse/browser-use
然后通过 HTTP API 调用浏览器自动化任务。
适用场景
网页数据采集: 替代传统的 Selenium/BeautifulSoup 方案,用自然语言描述抓取规则,更灵活且维护成本更低。
自动化测试: AI 驱动的端到端测试,测试用例用自然语言描述,browser-use 自动执行并验证结果。
网页内容监控: 自动监控竞品网站价格、新闻更新、社交媒体动态等。
表单自动填写: 定期填写和提交网页表单,如考勤系统、问卷调查等。
RPA(机器人流程自动化): 将重复性网页操作自动化,减少人工操作时间。
开源协议
MIT License,代码完全开源免费。
browser-use 的本质是将浏览器变成 AI 智能体的”眼睛和手”。以往需要几十行 Selenium 代码才能完成的网页操作,现在只需一句自然语言描述。如果你需要 AI 处理任何涉及网页的任务,browser-use 是目前最成熟的解决方案。
服务支持:如有兴趣不会搭建,可以联系微信:WRYD6166,开源项目搭建10-50元。









暂无评论内容