一、项目简介
browser-use(github.com/browser-use/browser-use)是目前最热门的AI浏览器自动化开源项目之一,GitHub星标数超过87000颗。它让大语言模型(LLM)能够直接控制Chrome等浏览器,完成点击、输入、滚动、截图等操作,从而实现真正的「AI上网」能力。
简单来说,browser-use就像给AI安装了一个「眼睛和手指」——AI不仅能读取网页内容,还能像真人一样在浏览器里操作。这种能力对于自动化测试、网页数据采集、AI助手功能扩展等场景有着巨大价值。
二、特色功能
- 自然语言控制浏览器:只需用自然语言描述你想做的事,AI自动完成在网页上的操作步骤
- 多标签页管理:支持同时操作多个浏览器标签页
- 视觉理解:内置视觉模型,能理解页面布局和元素位置
- 反检测模式:内置stealth模式,降低被网站识别为机器人的概率
- 云端版本:提供官方云服务,无需本地配置即可使用
- 丰富集成:支持LangChain、crewAI等主流AI框架
三、安装步骤
环境要求
- Python 3.11 或更高版本
- 已安装Chrome/Chromium浏览器
- OpenAI API密钥或其他LLM API(可选本地模型)
使用uv安装(推荐)
uv init
uv add browser-use
uv sync
如果未安装Chromium,运行以下命令:
uvx browser-use install
配置API密钥
在项目根目录创建.env文件:
OPENAI_API_KEY=你的API密钥
# 或者使用其他LLM提供商
ANTHROPIC_API_KEY=你的API密钥
四、使用方法
基础用法示例
from browser_use import Agent
from langchain_openai import ChatOpenAI
llm = ChatOpenAI(model="gpt-4o")
agent = Agent(llm=llm, task="帮我在知乎上搜索人工智能发展趋势")
result = agent.run()
print(result)
CLI工具使用
browser-use还提供命令行界面,可以直接运行自动化任务:
uvx browser-use "帮我登录GitHub并给我的仓库加一个star"
五、适用场景
- 网页数据采集:比传统爬虫更智能,能处理JavaScript渲染的动态页面
- 自动化测试:用自然语言编写测试用例,AI自动执行
- 社交媒体运营:自动发帖、评论、关注等操作
- 价格监控:监控电商平台价格变化并自动通知
- AI助手增强:让ChatGPT等AI能够访问实时网络信息
六、开源协议
browser-use采用MIT开源协议,可以免费商用和个人使用。
服务支持:如有兴趣不会搭建,可以联系微信:WRYD6166,开源项目搭建10-50元。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END








暂无评论内容