【开源】UI-TARS-desktop：字节跳动开源的多模态AI桌面Agent，看图操控电脑的革命性工具-壹联网络

让AI像人一样”看”到屏幕内容，然后操控电脑完成各种任务——这不再是科幻。UI-TARS-desktop 是字节跳动开源的多模态AI Agent桌面应用，基于强大的 UI-TARS 模型，能够同时支持本地和远程的计算机操控以及浏览器自动化，是目前最前沿的GUI Agent开源方案之一。

项目介绍
UI-TARS-desktop 是由字节跳动Seed团队开源的多模态AI Agent桌面应用程序。它基于 UI-TARS 模型，该模型专门针对GUI（图形用户界面）操控优化，能够精准理解屏幕上的视觉元素并执行相应操作。项目同时支持本地和远程两种操控模式，以及独立的浏览器操作功能，可在 Windows、macOS、Linux 上原生运行。

特色功能
多模态视觉理解：基于 UI-TARS-1.5 模型，能精准识别屏幕上的按钮、输入框、图片等所有GUI元素。
本地计算机操控：无需任何配置，直接控制本地电脑——打开应用、填写表单、点击按钮、拖拽文件等。
远程计算机操控：支持通过远程模式控制其他电脑，适合服务器运维、技术支持等场景。
浏览器自动化：自主控制Chrome/Firefox等浏览器，完成网页搜索、内容提取、表单填写等任务。
CLI和Web UI双入口：既有命令行界面，也有图形化界面，适合不同使用习惯。
MCP工具集成：支持 Model Context Protocol，可连接各类MCP服务器扩展能力。
事件流视图：实时可视化AI思考过程和工具调用链路，方便调试和理解Agent行为。

安装步骤
第一步：下载安装包
前往 GitHub Releases 页面（https://github.com/bytedance/UI-TARS-desktop/releases）下载对应平台最新版本的安装包。

第二步：macOS 特殊处理
下载后如果遇到 Gatekeeper 阻止，在终端执行：
xattr -rd com.apple.quarantine /Applications/UI-TARS-desktop.app

第三步：启动并获取模型
首次启动会提示下载 UI-TARS 模型，按提示完成下载（约数GB）。
如需使用本地模型，需提前部署 UI-TARS 模型服务。

第四步：配置远程模式（如需要）
在”Remote Operator”页面填写远程计算机的连接信息，即可开始远程控制。

使用方法
本地电脑控制：
在”Local Computer Operator”中输入自然语言指令，如”打开Chrome并搜索今天的天气”
AI会自动识别屏幕元素并执行操作，全程可视化

浏览器自动化：
切换到”Browser Operator”模式
输入任务描述，AI会启动无头浏览器并自动完成操作

远程控制：
配置目标机器的SSH连接信息
通过远程模式操控其他服务器或电脑

MCP扩展：
在设置中配置MCP服务器地址
Agent可调用文件系统、数据库、API等各类外部工具

适用场景
自动化测试：自动操作软件进行UI测试，替代人工重复点击。
数据采集：自动浏览网页抓取结构化数据，无需写爬虫代码。
办公自动化：自动处理重复性的电脑操作任务，如填表、发邮件、整理文件等。
远程运维：远程控制服务器，AI辅助完成运维指令。
技术演示：制作AI操控电脑的演示视频，效果震撼。

开源协议
项目采用自定义开源协议，具体许可请参考 GitHub 仓库 LICENSE 文件。

项目地址：https://github.com/bytedance/UI-TARS-desktop
官网：https://agent-tars.com

服务支持：如有兴趣不会搭建，可以联系微信：WRYD6166，开源项目搭建10-50元。