让AI操控浏览器:browser-use项目详解,让GPT等大模型帮你上网冲浪

一、项目简介

browser-use(github.com/browser-use/browser-use)是目前最热门的AI浏览器自动化开源项目之一,GitHub星标数超过87000颗。它让大语言模型(LLM)能够直接控制Chrome等浏览器,完成点击、输入、滚动、截图等操作,从而实现真正的「AI上网」能力。

简单来说,browser-use就像给AI安装了一个「眼睛和手指」——AI不仅能读取网页内容,还能像真人一样在浏览器里操作。这种能力对于自动化测试、网页数据采集、AI助手功能扩展等场景有着巨大价值。

二、特色功能

  • 自然语言控制浏览器:只需用自然语言描述你想做的事,AI自动完成在网页上的操作步骤
  • 多标签页管理:支持同时操作多个浏览器标签页
  • 视觉理解:内置视觉模型,能理解页面布局和元素位置
  • 反检测模式:内置stealth模式,降低被网站识别为机器人的概率
  • 云端版本:提供官方云服务,无需本地配置即可使用
  • 丰富集成:支持LangChain、crewAI等主流AI框架

三、安装步骤

环境要求

  • Python 3.11 或更高版本
  • 已安装Chrome/Chromium浏览器
  • OpenAI API密钥或其他LLM API(可选本地模型)

使用uv安装(推荐)

uv init
uv add browser-use
uv sync

如果未安装Chromium,运行以下命令:

uvx browser-use install

配置API密钥

在项目根目录创建.env文件:

OPENAI_API_KEY=你的API密钥
# 或者使用其他LLM提供商
ANTHROPIC_API_KEY=你的API密钥

四、使用方法

基础用法示例

from browser_use import Agent
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(model="gpt-4o")
agent = Agent(llm=llm, task="帮我在知乎上搜索人工智能发展趋势")
result = agent.run()
print(result)

CLI工具使用

browser-use还提供命令行界面,可以直接运行自动化任务:

uvx browser-use "帮我登录GitHub并给我的仓库加一个star"

五、适用场景

  • 网页数据采集:比传统爬虫更智能,能处理JavaScript渲染的动态页面
  • 自动化测试:用自然语言编写测试用例,AI自动执行
  • 社交媒体运营:自动发帖、评论、关注等操作
  • 价格监控:监控电商平台价格变化并自动通知
  • AI助手增强:让ChatGPT等AI能够访问实时网络信息

六、开源协议

browser-use采用MIT开源协议,可以免费商用和个人使用。


服务支持:如有兴趣不会搭建,可以联系微信:WRYD6166,开源项目搭建10-50元。

© 版权声明
THE END
喜欢就支持一下吧
点赞9 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容