让AI像人一样”看”到屏幕内容,然后操控电脑完成各种任务——这不再是科幻。UI-TARS-desktop 是字节跳动开源的多模态AI Agent桌面应用,基于强大的 UI-TARS 模型,能够同时支持本地和远程的计算机操控以及浏览器自动化,是目前最前沿的GUI Agent开源方案之一。
项目介绍
UI-TARS-desktop 是由字节跳动Seed团队开源的多模态AI Agent桌面应用程序。它基于 UI-TARS 模型,该模型专门针对GUI(图形用户界面)操控优化,能够精准理解屏幕上的视觉元素并执行相应操作。项目同时支持本地和远程两种操控模式,以及独立的浏览器操作功能,可在 Windows、macOS、Linux 上原生运行。
特色功能
多模态视觉理解:基于 UI-TARS-1.5 模型,能精准识别屏幕上的按钮、输入框、图片等所有GUI元素。
本地计算机操控:无需任何配置,直接控制本地电脑——打开应用、填写表单、点击按钮、拖拽文件等。
远程计算机操控:支持通过远程模式控制其他电脑,适合服务器运维、技术支持等场景。
浏览器自动化:自主控制Chrome/Firefox等浏览器,完成网页搜索、内容提取、表单填写等任务。
CLI和Web UI双入口:既有命令行界面,也有图形化界面,适合不同使用习惯。
MCP工具集成:支持 Model Context Protocol,可连接各类MCP服务器扩展能力。
事件流视图:实时可视化AI思考过程和工具调用链路,方便调试和理解Agent行为。
安装步骤
第一步:下载安装包
前往 GitHub Releases 页面(https://github.com/bytedance/UI-TARS-desktop/releases)下载对应平台最新版本的安装包。
第二步:macOS 特殊处理
下载后如果遇到 Gatekeeper 阻止,在终端执行:
xattr -rd com.apple.quarantine /Applications/UI-TARS-desktop.app
第三步:启动并获取模型
首次启动会提示下载 UI-TARS 模型,按提示完成下载(约数GB)。
如需使用本地模型,需提前部署 UI-TARS 模型服务。
第四步:配置远程模式(如需要)
在”Remote Operator”页面填写远程计算机的连接信息,即可开始远程控制。
使用方法
本地电脑控制:
在”Local Computer Operator”中输入自然语言指令,如”打开Chrome并搜索今天的天气”
AI会自动识别屏幕元素并执行操作,全程可视化
浏览器自动化:
切换到”Browser Operator”模式
输入任务描述,AI会启动无头浏览器并自动完成操作
远程控制:
配置目标机器的SSH连接信息
通过远程模式操控其他服务器或电脑
MCP扩展:
在设置中配置MCP服务器地址
Agent可调用文件系统、数据库、API等各类外部工具
适用场景
自动化测试:自动操作软件进行UI测试,替代人工重复点击。
数据采集:自动浏览网页抓取结构化数据,无需写爬虫代码。
办公自动化:自动处理重复性的电脑操作任务,如填表、发邮件、整理文件等。
远程运维:远程控制服务器,AI辅助完成运维指令。
技术演示:制作AI操控电脑的演示视频,效果震撼。
开源协议
项目采用自定义开源协议,具体许可请参考 GitHub 仓库 LICENSE 文件。
项目地址:https://github.com/bytedance/UI-TARS-desktop
官网:https://agent-tars.com
服务支持:如有兴趣不会搭建,可以联系微信:WRYD6166,开源项目搭建10-50元。









暂无评论内容