browser-use:让 AI 智能体操控浏览器的网页自动化框架

browser-use:让 AI 智能体操控浏览器的网页自动化框架

项目简介

browser-use 是一个开源 Python 库,旨在”让网站能被 AI 智能体访问和操控”,以最简单的方式实现浏览器自动化。开发者可以用自然语言指令让 AI 控制真实浏览器完成复杂网页任务,如填写表单、点击按钮、抓取数据、进行搜索等。

browser-use 兼容 Cursor、Claude Code 等主流 AI 编程工具,支持有头和无头两种浏览器模式,提供 Docker 云端版本跳过本地安装步骤,在 GitHub 拥有超过 8.7 万颗星标,是 AI 浏览器自动化领域最受欢迎的开源项目之一。

核心特色功能

自然语言驱动浏览器操作: 无需学习 Selenium 或 Playwright 的复杂 API,直接用自然语言描述任务,browser-use 转化为浏览器操作。

多智能体并发支持: 支持同时运行多个 AI 智能体,各自从独立浏览器实例执行任务,大幅提升批量网页处理效率。

多标签页管理: 自动管理浏览器标签页,支持标签页间切换、数据传递等操作。

视觉理解集成: 内置视觉模型支持,能理解网页内容并做出决策,适合处理动态网页和复杂交互。

云端版本(Browser Use Cloud): 无需安装配置,直接调用云端浏览器,支持高速、可扩展、隐身模式的浏览器自动化。

完整文档和示例: 提供 docs.browser-use.com 完整文档,包含数十个常见场景的代码示例。

安装步骤

前置要求:
– Python 3.11+
– uv 包管理器(推荐)或 pip
– Chromium 浏览器(uvx browser-use install 自动安装)

方式一:uv 安装(推荐)

bash
uv init
uv add browser-use
uv sync

如果 Chromium 未安装,运行:

bash
uvx browser-use install

方式二:pip 安装

bash
pip install browser-use
python -m browser_use install chromium

方式三:Docker 云端版本(跳过本地安装)

访问 https://cloud.browser-use.com 注册账号获取 API Key,直接调用云端服务,无需任何安装。

使用方法

基础示例:让 AI 搜索网页

“`python
from browser_use import Agent
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(model=”gpt-4o”)
agent = Agent(
task=”在 Google 上搜索 2026 年 AI 发展趋势,并总结前 5 个结果”,
llm=llm,
)
agent.run()
“`

处理复杂表单:

“`python
from browser_use import Agent
from langchain_anthropic import ChatAnthropic

llm = ChatAnthropic(model=”claude-sonnet-4-20250514″)
agent = Agent(
task=”打开 https://example.com/form,填写姓名、邮箱、留言内容,然后点击提交按钮”,
llm=llm,
)
agent.run()
“`

批量数据抓取:

“`python
from browser_use import Agent
from langchain_openai import ChatOpenAI

tasks = [
“打开 GitHub 搜索 ‘AI agent’,获取前 10 个仓库的名称和星标数”,
“打开 Hacker News,获取今日最热门的 5 篇文章标题”,
“打开天气预报网站,查询北京未来 3 天天气”,
]

llm = ChatOpenAI(model=”gpt-4o”)

并发执行多个任务

for task in tasks:
agent = Agent(task=task, llm=llm)
agent.run()
“`

配合 Claude Code 使用:

  1. 在 Claude Code 中打开 Agents.md 配置
  2. 让 AI 读取 browser-use 文档
  3. 用自然语言描述任务,AI 自动调用 browser-use 完成

Docker 部署本地服务:

bash
docker run -d -p 8000:8000 \
-e OPENAI_API_KEY=your_key \
browseruse/browser-use

然后通过 HTTP API 调用浏览器自动化任务。

适用场景

网页数据采集: 替代传统的 Selenium/BeautifulSoup 方案,用自然语言描述抓取规则,更灵活且维护成本更低。

自动化测试: AI 驱动的端到端测试,测试用例用自然语言描述,browser-use 自动执行并验证结果。

网页内容监控: 自动监控竞品网站价格、新闻更新、社交媒体动态等。

表单自动填写: 定期填写和提交网页表单,如考勤系统、问卷调查等。

RPA(机器人流程自动化): 将重复性网页操作自动化,减少人工操作时间。

开源协议

MIT License,代码完全开源免费。


browser-use 的本质是将浏览器变成 AI 智能体的”眼睛和手”。以往需要几十行 Selenium 代码才能完成的网页操作,现在只需一句自然语言描述。如果你需要 AI 处理任何涉及网页的任务,browser-use 是目前最成熟的解决方案。


服务支持:如有兴趣不会搭建,可以联系微信:WRYD6166,开源项目搭建10-50元。

© 版权声明
THE END
喜欢就支持一下吧
点赞9 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容