让AI操控浏览器:browser-use 开源项目详解

项目简介

browser-use 是一个让 AI Agent 能够操控浏览器的开源 Python 库,由 browser-use 团队开发,目前在 GitHub 上已获得超过 87,000 颗星。这个项目将大语言模型与浏览器自动化完美结合,让 AI 能够像人一样浏览网页、点击按钮、填写表单、滚动页面等操作。它基于 Playwright 构建,同时支持本地浏览器和云端隐身浏览器模式。

核心特色

  • 自然语言操控浏览器:只需用自然语言描述任务,AI 就能自动完成网页操作,如搜索信息、填写订单、比较价格等
  • 支持主流 AI 模型:兼容 Claude、GPT、Gemini 等主流大语言模型,可根据需求灵活选择
  • 云端隐身模式:提供云端浏览器服务,自动处理反爬机制、IP 封禁等问题
  • 多 Agent 协作:支持多个 AI Agent 同时工作,完成复杂的多步骤任务
  • 简单易用:通过 pip 即可安装,几行代码即可让 AI 操控浏览器
  • API 文档完善:提供详细的开发文档和示例代码

安装步骤

项目要求 Python 3.11 或更高版本,推荐使用 uv 包管理器安装:

# 初始化项目并安装
uv init && uv add browser-use && uv sync

# 如果没有 Chromium 浏览器,运行:
uvx browser-use install

# 或者使用 pip 安装
pip install browser-use

使用方法

安装完成后,只需几行 Python 代码即可让 AI 开始操控浏览器:

from browser_use import Agent, Browser, ChatBrowserUse
import asyncio

async def main():
    browser = Browser()
    agent = Agent(
        task="Find the number of stars of the browser-use repo",
        llm=ChatBrowserUse(),
        browser=browser,
    )
    result = await agent.run()
    print(result)

asyncio.run(main())

如果想使用云端隐身浏览器,只需配置 API Key:

# 在 .env 文件中配置
BROWSER_USE_API_KEY=your-key
ANTHROPIC_API_KEY=your-key  # 或 GOOGLE_API_KEY

# 代码中使用 use_cloud=True
browser = Browser(use_cloud=True)

适用场景

  • 自动化测试:AI 自动测试网页功能,发现 UI 异常
  • 数据采集:自动抓取电商、新闻、社交媒体等网站数据
  • 智能客服:AI 自动操作网页完成查询、订票等业务
  • 价格监控:自动监控竞品价格变化并生成报表
  • 内容聚合:从多个网站自动采集整理信息

技术架构

browser-use 的核心原理是:将网页的 DOM 结构转换为文本描述,让大语言模型理解页面内容,然后生成可执行的浏览器操作指令。它会自动处理页面加载等待、反爬检测规避、错误重试等复杂逻辑。

项目使用 Python 开发,依赖 Playwright 进行浏览器控制,支持 Chrome、Firefox 等主流浏览器。同时提供 MCP(Model Context Protocol)接口,可与各种 AI Agent 框架无缝集成。

开源协议

browser-use 采用 MIT 开源协议,可以免费商用、个人使用和二次开发。项目在 GitHub 上开源,社区活跃,欢迎开发者贡献代码。


服务支持:如有兴趣不会搭建,可以联系微信:WRYD6166,开源项目搭建10-50元。

© 版权声明
THE END
喜欢就支持一下吧
点赞14 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容