この記事は観察・解説記事です。 UI-TARS-desktopは、ByteDanceが公開したGUI自律エージェントのデスクトップアプリです。 冒頭の動画は、自然言語の指示だけでVS Codeの設定画面をエージェントが操作する実演です。 本稿は2026年6月19日(JST)時点で、公式リポジトリ・Quick Start・論文・Hugging Faceから確認できる事実を整理し、何が公式記載で、何が未確認かを切り分けます。
- UI-TARS-desktopは、画面のスクリーンショットをVLMで読み、マウスとキーボードを直接動かしてPCを操作するデスクトップアプリ。READMEは「ローカルコンピュータ向けのネイティブGUIエージェント」と説明する。
- UI-TARS(モデル)とUI-TARS-desktop(アプリ)は別物。モデルが次の操作を決め、アプリがそれを実際のクリックや入力に変換する。
- 動かし方はLocal operator(自分で用意したVLMに接続)とRemote operator(遠隔操作)の2系統。リモート無料サービスは2025年8月20日に終了と明記されており、現在はローカル運用か自前デプロイが基本。
- 対応はWindows / MacOS / Browser。シングルモニタ前提、MacOSはアクセシビリティと画面収録の権限が必要。
- ライセンスはApache-2.0。★は約3.7万(リポジトリはAgent TARSと同居)。Computer Useやbrowser-useを「自分の手元のアプリ」として試せる選択肢になる。
30秒で理解する
まず全体像を箇条書きで押さえます。 各項目は後続のH2で公式記載とともに展開し、確認できた情報か未確認かを明記します。
・UI-TARS-desktopは、画面を見てマウスとキーボードを操作するGUIエージェントのデスクトップアプリ。READMEの一文は “UI-TARS Desktop is a native GUI agent for your local computer, driven by UI-TARS and Seed-1.5-VL/1.6 series models.”
・作り手はByteDance。リポジトリ bytedance/UI-TARS-desktop はUI-TARS-desktopとAgent TARSの2プロジェクトを同居させている
・土台はUI-TARSというVLM。GUI操作を学習させたモデルで、論文 arXiv:2501.12326 が一次資料
・操作モードはLocal operator(自前VLMに接続)とRemote operator(遠隔)の2系統。リモート無料サービスは2025年8月20日に終了済み
・対応OSはWindows / MacOS / Browser。シングルモニタ前提で、MacOSはアクセシビリティと画面収録の権限が必須
・ライセンスはApache-2.0。モデル本体のUI-TARSもApache-2.0
GUIを自律操作するエージェントが「何を解こうとしているのか」という前提は、ピラー記事 AIエージェントとは?仕組み・種類・代表的OSSフレームワークを初心者向けに解説【2026年版】 に整理してあります。 本記事はその応用として、画面を直接見て操作するエージェントが、ひとつのデスクトップアプリとしてどう組み上がっているかを公式記載から読み取る位置づけです。
UI-TARS-desktopとは(作者・スター・ライセンス)
UI-TARS-desktopは、ByteDanceが公開したGUI自律エージェントのデスクトップアプリです。 READMEの定義文はこう書かれています。
UI-TARS Desktop is a native GUI agent for your local computer, driven by UI-TARS and Seed-1.5-VL/1.6 series models.
ここで言うGUIエージェントとは、画面に映ったボタンやメニューを認識し、人と同じようにマウスとキーボードで操作してタスクを進めるエージェントを指します。 APIを叩くのではなく、画面の見た目を手がかりに操作する点が、通常の自動化スクリプトとの違いです。
リポジトリの基本情報を、2026-06-19時点の実測値で整理します。
| 項目 | 値(2026-06-19時点) |
|---|---|
| リポジトリ | bytedance/UI-TARS-desktop |
| スター数 | 約36,800 |
| フォーク数 | 約3,700 |
| 主要言語 | TypeScript |
| ライセンス | Apache License 2.0 |
| 作成日 | 2025-01-19 |
| 直近push | 2026-06-18 |
| 同居プロジェクト | UI-TARS-desktop / Agent TARS |
注意したいのは、このリポジトリが2つのプロジェクトを同居させていることです。 READMEは冒頭で “TARS is a Multimodal AI Agent stack, currently shipping two projects: Agent TARS and UI-TARS-desktop” と宣言しています。
ひとつは本稿が扱うUI-TARS-desktop(ローカルPCを操作するデスクトップアプリ)。 もうひとつはAgent TARSで、こちらはCLIとWeb UIを中心にブラウザやターミナルを操作する、MCP連携を前提とした別系統のエージェントスタックです。 スター数や直近pushはリポジトリ全体の数字なので、UI-TARS-desktop単体の人気を厳密に切り出したものではない点は割り引いて読む必要があります。
デモ動画で見るUI-TARS-desktopの動き
冒頭の動画は、READMEのShowcaseに掲載されたLocal Operatorの実演です。 渡している指示文は次の一文です。
Please help me open the autosave feature of VS Code and delay AutoSave operations for 500 milliseconds in the VS Code setting.
日本語にすると「VS Codeの自動保存を有効にして、保存の遅延を500ミリ秒に設定して」という依頼です。 注目したいのは、この指示にファイルパスもメニュー座標も含まれていないことです。 どこをクリックすればVS Codeの設定が開くか、どの項目がAutoSaveの遅延設定かは、エージェント側が画面を見て判断します。
動画の流れを公式の文脈から読み解くと、おおむね次のサイクルが繰り返されます。
・画面のスクリーンショットを撮る
・VLMが画面の内容と指示を突き合わせ、次の操作(クリック・入力・スクロールなど)を決める
・アプリがその操作を実際のマウス・キーボード動作として実行する
・操作後の画面を再びスクリーンショットで確認し、目標に届くまで繰り返す
READMEのShowcaseには、もうひとつ “Could you help me check the latest open issue of the UI-TARS-Desktop project on GitHub?”(GitHubでUI-TARS-Desktopの最新のopen issueを確認して)という指示の動画も並んでいます。 いずれも、ブラウザやエディタといった具体的なアプリ名を人間が画面操作で指示しなくても、自然言語のゴールから操作列を組み立てる、という使い方を示しています。
文字起こしだけでは伝わりにくいので、この記事では実際のアプリ画面も後半の導入手順で示します。 まずは「自然言語の指示 → 画面を見て操作」という一連の流れを、動画で掴んでおくと後の説明が読みやすくなります。
UI-TARSとUI-TARS-desktopの関係
名前が似ているため混同しやすいのですが、UI-TARSとUI-TARS-desktopは層が違います。 ここを整理しておくと、後の対応モデルや導入手順の話がほどけます。
UI-TARSは、GUI操作を学習したVision-Language Model(VLM)そのものです。 リポジトリは bytedance/UI-TARS にあり、論文 “UI-TARS: Pioneering Automated GUI Interaction with Native Agents”(arXiv:2501.12326)が理論面の一次資料です。 モデルは画面のスクリーンショットと指示を入力に取り、「次にどの座標をクリックするか」「何を入力するか」といった操作を出力します。
UI-TARS-desktopは、そのモデルを呼び出して実際にPCを動かすアプリケーション層です。 モデルが返した「ここをクリック」という判断を、OSのマウスイベントやキー入力に変換して画面に反映するのがアプリの仕事です。 TypeScriptで書かれ、デスクトップアプリとして配布されています。
両者の関係を図にすると次のようになります。
(自然言語のゴール)"] --> B["UI-TARS-desktop
(アプリ層 / TypeScript)"] B -->|"スクリーンショット+指示を送信"| C["UI-TARS / Seed-1.5-VL
(VLM・モデル層)"] C -->|"次の操作を返す
click / type / scroll"| B B -->|"OSのマウス・キーボードへ"| D["対象アプリ
(VS Code・ブラウザ等)"] D -->|"操作後の画面"| B
つまりモデルは「判断する脳」、アプリは「手を動かす身体」と整理できます。 この分離があるため、アプリは固定でも、接続するモデルをUI-TARS-1.5にもDoubao-1.5-UI-TARSにも差し替えられます。 逆に言えば、UI-TARS-desktopを動かすには別途VLMのエンドポイントを用意して接続する必要がある、ということでもあります。
なお、Agent TARSとの関係も押さえておくと混乱を避けられます。 Agent TARSはGUIエージェントの力をターミナルやブラウザ、製品に持ち込むための別系統のスタックで、CLIとWeb UIが主な入口です。 UI-TARS-desktopが「ローカルPCをアプリから操作する」のに対し、Agent TARSは「MCPツールと連携してワークフローを組む」方向に寄っています。 同じリポジトリに同居していますが、入口も使い方も別物として捉えるのが正確です。
アーキテクチャ全体像とエージェント実行ループ
UI-TARS-desktopの動きは、観察(screenshot)→ 判断(VLM)→ 操作(action)→ 再観察というループに集約できます。 このループは、画面を見て操作するエージェントに共通する基本骨格で、いわゆるエージェントハーネスの一形態です。 ハーネスそのものの考え方は AIエージェントのハーネスとは?仕組みと設計の基本 に整理してあるので、構造の前提を確認したい場合はあわせて読むと理解が早まります。
実行ループを図にすると次のようになります。
指示と現在状態を突き合わせ"] V --> P["3. 次の操作を決定
click / type / scroll / hotkey"] P --> E["4. マウス・キーボードで実行"] E --> C{"5. 目標達成?"} C -->|"未達"| S C -->|"達成"| D["完了"]
このループで効いているのが、UI-TARSが掲げるpure-vision(純粋な視覚ベース)の方針です。 多くの画面自動化は、ブラウザならDOM、ネイティブアプリならアクセシビリティツリーといった「裏側の構造データ」を読み取って操作対象を特定します。 UI-TARSの論文は、こうした構造データに頼らず、画面のピクセルそのものから操作対象を見つける方向を打ち出しています。
この方針には利点と弱点の両面があります。 利点は、DOMやアクセシビリティツリーが取れないアプリでも、画面さえ映れば同じ枠組みで扱えることです。 弱点は、画面の見た目が頼りなので、解像度やレイアウト、マルチモニタといった視覚条件の影響を受けやすいことです。 Quick Startが「シングルモニタ構成のみ対応」と明記しているのは、この視覚依存の性質と整合します。
対応プラットフォームと対応モデル
対応プラットフォームについて、READMEのFeaturesは “Cross-platform support (Windows/MacOS/Browser)” と記載しています。 WindowsとmacOSのネイティブ操作に加え、ブラウザ操作にも対応する構成です。 ブラウザ操作を使う場合、Quick StartはChrome・Edge・Firefoxのいずれかのインストールを前提条件として挙げています。
対応モデル(VLM)については、Quick Startが2つの接続方法を具体例として示しています。
| 接続方法 | VLM Provider設定値 | モデル |
|---|---|---|
| Hugging Face Endpoint | Hugging Face for UI-TARS-1.5 | UI-TARS-1.5-7B |
| VolcEngine Ark | VolcEngine Ark for Doubao-1.5-UI-TARS | doubao-1.5-ui-tars-250328 |
Hugging Faceの場合は、UI-TARS-1.5-7BをInference Endpointとしてデプロイし、得られたBase URL・API Key・Model Nameを設定画面に入力します。 VolcEngine Arkの場合は、Doubao-1.5-UI-TARSのページからAPI Keyとエンドポイント情報を取得して入力します。 どちらも、アプリの設定画面でVLM Provider・Base URL・API Key・Model Nameを指定する構成は共通です。
READMEの定義文には “Seed-1.5-VL/1.6 series models” という記載もあります。 UI-TARS系のモデルに加え、ByteDanceのSeed系VLMでも駆動する想定が示されているわけですが、設定画面の選択肢として何が並ぶかはバージョンによって変わり得ます。 接続可能なプロバイダの最新の正確な一覧は、設定画面とドキュメントで都度確認するのが確実です。
ローカルでの完結性については、READMEのFeaturesに “Private and secure - fully local processing” とあります。 ただしこの「完全ローカル処理」は、操作の実行とスクリーンショット処理がローカルで完結することを指す表現で、接続先のVLMをどこに置くか(自分のサーバか、外部API経由か)は構成次第です。 自分のマシンや自社環境にUI-TARS-1.5-7Bをデプロイすれば、画面データを外部に送らない運用に近づけられますが、外部APIに接続する場合は画面情報がそのAPIに渡る点を理解しておく必要があります。
主要機能(画面認識・操作実行・Local/Remote operator)
READMEのFeaturesに挙がっている機能を、公式記載のまま整理します。
・Vision-Language Modelによる自然言語操作
・スクリーンショットと視覚認識のサポート
・正確なマウス・キーボード制御
・Windows / MacOS / Browserのクロスプラットフォーム対応
・リアルタイムのフィードバックと状態表示
・完全ローカル処理によるプライバシーと安全性
これらを使い方の単位で言い直すと、Local operatorとRemote operatorという2つの動かし方になります。
Local operatorは、自分のPC上のアプリやブラウザを、手元のUI-TARS-desktopから直接操作するモードです。 冒頭のデモ動画(VS Codeの設定操作)がこれにあたります。 自分で用意したVLMエンドポイントに接続し、目の前の画面をエージェントが操作します。
Remote operatorは、遠隔のコンピュータやブラウザを操作するモードです。 v0.2.0(2025-06-12公開)で、Remote Computer OperatorとRemote Browser Operatorが追加されました。 リリースノートは当初「設定不要・クリックするだけで遠隔のコンピュータやブラウザを操作できる」「完全無料」と案内していました。
ただしRemote operatorには重要な但し書きがあります。 Quick Startには “The Remote Operator service will be discontinued on August 20, 2025.” と明記されています。 つまり当初の無料リモートサービスは終了済みで、遠隔操作を続けたい場合はVolcano EngineのOS Agent Services(Computer Use Agent / Browser Use Agent)を自前でデプロイする案内に切り替わっています。 2026-06-19時点で「無料で遠隔操作」を期待してインストールすると、この点で想定とずれる可能性があります。
リリースの流れも押さえておくと、機能の積み上がりが見えます。
| 時期 | できごと(公式News記載) |
|---|---|
| 2025-02-20 | UI TARS SDK を公開(GUI自動化エージェント構築用の横断ツールキット) |
| 2025-04-17 | v0.1.0:Agent UIを刷新、UI-TARS-1.5モデルに対応 |
| 2025-06-12 | v0.2.0:Remote Computer / Browser Operator を追加 |
| 2025-11-04 | Agent TARS CLI v0.3.0 を公開(同居プロジェクト側の更新) |
安全面・権限・既知の制限
画面を見て勝手にマウスを動かすエージェントである以上、権限と制限の理解は導入前提になります。 ここはREADMEとQuick Startに書かれている範囲に絞って整理し、書かれていないことは「未確認」と明記します。
まずMacOSの権限です。 Quick Startは、UI-TARSアプリに対してシステム設定の「プライバシーとセキュリティ → アクセシビリティ」と「プライバシーとセキュリティ → 画面収録」の2つを有効化するよう指示しています。 アクセシビリティはマウス・キーボード操作の代行に、画面収録はスクリーンショット取得に必要な権限です。 この2つを渡すということは、アプリがPC全体を見て操作できる状態になることを意味します。
次に既知の制限です。 Quick Startは “UI-TARS-desktop is currently only available for single monitor setup. Multi-monitor configuration may cause failure for some tasks.” と明記しています。 マルチモニタ環境では一部タスクが失敗する可能性がある、という制限です。 これはpure-visionで画面全体を扱う設計上、座標と表示領域の対応が複雑になることと整合します。
安全装置(操作前の確認ダイアログ、操作禁止リスト、サンドボックス分離など)の具体的な仕様について、UI-TARS-desktopのREADMEとQuick Startは詳細を網羅していません。 そのため本稿では、これらの安全装置の有無や挙動は未確認として扱います。 同居するAgent TARS側はv0.3.0で隔離実行環境(AIO agent Sandbox)への対応を案内していますが、これはAgent TARSの話で、UI-TARS-desktopの安全装置とは別物として切り分ける必要があります。
実運用では、画面操作エージェントに広い権限を渡すリスクを踏まえ、検証は重要データのない環境で行う、操作対象を限定する、実行中は画面から目を離さない、といった運用側の配慮が現実的な安全策になります。 これはUI-TARS-desktopに限らず、Computer Use系のツール全般に共通する注意点です。
既存ツールとの位置づけ(Computer Use / Operator / browser-use)
画面やブラウザを自律操作するツールは、ここ1年で一気に増えました。 UI-TARS-desktopがその中でどこに立つのかを、配布形態と操作対象の2軸で整理します。 細部は各ツールとも更新が早いため、ここでは執筆時点で公開情報から読み取れる大枠に絞ります。
| ツール | 配布形態 | 画面の読み方 | 主な対象 |
|---|---|---|---|
| UI-TARS-desktop | デスクトップアプリ+VLM | pure-vision(ピクセル) | OSネイティブ+ブラウザ |
| Anthropic Computer Use | APIの一機能 | スクリーンショット+座標操作 | 仮想環境・デスクトップ |
| OpenAI Operator | サービス(提供形態) | 視覚ベース | 主にブラウザ操作 |
| browser-use | Pythonライブラリ | DOMベース | ブラウザ |
関係を図にすると、UI-TARS-desktopの立ち位置が見えやすくなります。
自律操作したい"] --> R{"何で配布される?"} R -->|"手元のアプリで完結"| T["UI-TARS-desktop
アプリ+VLM / OSもブラウザも"] R -->|"自分のコードに組み込む"| U{"何を操作する?"} R -->|"APIやサービス経由"| W["Computer Use(API)
Operator(サービス)"] U -->|"ブラウザのDOM"| X["browser-use
Pythonライブラリ"] U -->|"画面のピクセル"| T
UI-TARS-desktopの差別化点は2つに整理できます。
ひとつは、モデルとアプリが一体で、手元で完結させやすいことです。 APIキーを使ってクラウドのモデルを呼ぶ形ではなく、アプリをインストールしてVLMエンドポイントを設定すれば、自分のPC上で操作が走ります。 自前でUI-TARS-1.5-7Bを立てれば、画面データの外部送信を抑える運用にも寄せられます。
もうひとつは、pure-visionでOSネイティブアプリまで同じ枠組みで扱えることです。 browser-useのようなDOMベースのツールはブラウザに強い一方、ネイティブアプリの操作は守備範囲外です。 UI-TARS-desktopは画面のピクセルを直接読むため、VS Codeのようなデスクトップアプリも同じやり方で操作できます。 この点は、ブラウザ専業のツールとは設計思想が異なります。
ローカルでモデルを動かすという発想に関心があれば、ローカルLLMをmacOSで動かす Osaurus解説|macで動く軽量ローカルLLMサーバ も、自分の環境で完結させる選択肢として参考になります。
導入手順(最小構成)
ここでは公式Quick Startに沿って、最小構成の流れを示します。 細かい画面はバージョンで変わるため、最新の手順は必ず公式ドキュメントを参照してください。
1. アプリを入手する
GitHubのReleasesページから最新のリリースを入手します。 macOSでHomebrewを使っている場合は、次のコマンドでも導入できます。
brew install --cask ui-tars
2. インストールと権限付与(macOS)
ダウンロードしたアプリを「アプリケーション」フォルダにドラッグします。 その後、システム設定で2つの権限を有効化します。
システム設定 → プライバシーとセキュリティ → アクセシビリティ → UI TARS をオン
システム設定 → プライバシーとセキュリティ → 画面収録 → UI TARS をオン
ブラウザ操作(Browser Operator)を使う場合は、Chrome・Edge・Firefoxのいずれかを事前にインストールしておきます。
3. VLMを用意して接続する
アプリ単体ではモデルを持たないため、VLMエンドポイントを用意して設定画面で接続します。 Hugging FaceにUI-TARS-1.5-7Bをデプロイする場合の設定例は次のとおりです。
Language: en
VLM Provider: Hugging Face for UI-TARS-1.5
VLM Base URL: https://<your-endpoint>/v1/
VLM API KEY: <your_api_key>
VLM Model Name: <your_model_name>
VolcEngine ArkのDoubao-1.5-UI-TARSを使う場合の設定例は次のとおりです。
Language: cn
VLM Provider: VolcEngine Ark for Doubao-1.5-UI-TARS
VLM Base URL: https://ark.cn-beijing.volces.com/api/v3
VLM API KEY: <your_api_key>
VLM Model Name: doubao-1.5-ui-tars-250328
VLM Providerの選択は重要で、Quick Startは「VLM Actionの解析を正しく行うため、対応するProviderを必ず選ぶこと」と注意しています。
Base URLが /v1/ で終わる必要があるなど、プロバイダごとの細かい指定もあるため、ここはドキュメントの記載に厳密に合わせます。
4. 指示を入力して実行する
設定が済んだら新しいチャットを開始し、自然言語で操作の目標を入力します。 ここから先は冒頭の動画と同じく、エージェントが画面を見ながら操作を進めます。
想定ユースケース
UI-TARS-desktopの想定用途を、公式のShowcaseと機能記載から無理のない範囲で読み取ります。 ここは公式が「これに使える」と断定している領域ではなく、機能から導ける現実的な使い道として整理します。
繰り返しのGUI操作の自動化が、もっとも素直な用途です。 冒頭のVS Code設定の例のように、メニューをたどって設定を変える、特定のアプリを開いて定型操作を行う、といった作業を自然言語で指示できます。 APIを持たないGUIだけのアプリでも、画面が見えれば操作できるのが強みです。
ソフトウェアの操作テスト・回帰確認にも応用余地があります。 画面を見て操作するため、人手のクリックテストに近い形で、アプリの画面遷移を辿らせる使い方が考えられます。 ただし安全装置の仕様が未確認である以上、本番環境ではなく検証環境での利用が前提になります。
操作手順のデモ・記録も現実的です。 自然言語の指示から実際の画面操作が走るので、手順を再現するデモ映像の素材づくりに使えます。 冒頭のデモ動画自体が、その用途の見本になっています。
一方で、不確実性が残る領域もあります。 複雑な多段ワークフロー、厳密な精度が求められる業務処理、マルチモニタ前提の作業などは、現状の制限(シングルモニタ、視覚依存)と相性が悪い可能性があります。 画面操作エージェント全般に言えることですが、失敗時のリカバリと人間の監督を前提に、影響範囲の小さいタスクから試すのが堅実です。
エージェントを束ねて使う発想に関心があれば、複数のコーディングエージェントを1画面で操る Polyscope解説|複数のAIエージェントを並列運用するmacOSアプリ も、運用層の別アプローチとして読み比べると視野が広がります。
ライセンスと引用
UI-TARS-desktopのライセンスはApache License 2.0です。 READMEのLicenseセクションに “This project is licensed under the Apache License 2.0.” と明記され、GitHubのライセンス自動判定もApache-2.0です。 Apache-2.0は商用利用・改変・再配布を許諾する寛容なライセンスで、特許条項を含みます。
モデル本体の bytedance/UI-TARS もApache-2.0です。 ただし、実際に接続して使うVLMエンドポイント(Hugging FaceのInference EndpointやVolcEngineのAPI)には、各サービスの利用規約と料金が別途かかります。 アプリのライセンスと、モデルを動かすインフラの規約・コストは分けて確認するのが安全です。
研究や記事で参照する場合、READMEは論文の引用を案内しています。 BibTeXは次のとおりです。
@article{qin2025ui,
title={UI-TARS: Pioneering Automated GUI Interaction with Native Agents},
author={Qin, Yujia and Ye, Yining and Fang, Junjie and Wang, Haoming and others},
journal={arXiv preprint arXiv:2501.12326},
year={2025}
}
論文は、GUI操作をネイティブに行うエージェントとしてUI-TARSを位置づけ、画面のピクセルから操作を導くアプローチを提示しています。 具体的なベンチマーク数値はバージョンや評価条件で変わるため、本稿では数値の引用は避け、一次資料である論文(arXiv:2501.12326)を確認する案内に留めます。
まとめ
UI-TARS-desktopは、画面のスクリーンショットをVLMで読み、マウスとキーボードを直接動かしてPCを操作するByteDance製のGUI自律エージェントアプリです。 モデル本体のUI-TARSと、それを動かすアプリのUI-TARS-desktopは層が違い、モデルが判断し、アプリが操作を実行する分担になっています。
確認できた事実を整理すると、次のようになります。
・READMEの定義は「ローカルコンピュータ向けのネイティブGUIエージェント」。UI-TARSとSeed-1.5-VL/1.6系で駆動する
・動かし方はLocal operatorとRemote operatorの2系統。リモート無料サービスは2025年8月20日に終了済みで、現在はローカル運用か自前デプロイが基本
・対応はWindows / MacOS / Browser。シングルモニタ前提で、MacOSはアクセシビリティと画面収録の権限が必須
・VLMはHugging FaceのUI-TARS-1.5-7BやVolcEngine ArkのDoubao-1.5-UI-TARSを設定画面から接続する
・ライセンスはApache-2.0。モデル本体のUI-TARSもApache-2.0
一方で、安全装置(確認ダイアログ・操作禁止リスト・サンドボックス)の詳細な仕様は、UI-TARS-desktopのドキュメント上では網羅されておらず、本稿では未確認として扱いました。 画面操作に広い権限を渡すツールである以上、検証環境から小さく試し、人間の監督を前提に運用するのが現実的です。
Computer Useやbrowser-useといった画面・ブラウザ操作エージェントを「自分の手元のアプリ」として試したい場合、UI-TARS-desktopはApache-2.0で公開された有力な入口になります。 pure-visionでOSネイティブアプリまで同じ枠組みで扱える設計は、ブラウザ専業ツールとは異なる選択肢を提供します。
参照ソース
・bytedance/UI-TARS-desktop(公式リポジトリ・README)
・UI-TARS-desktop Quick Start(docs/quick-start.md)
・bytedance/UI-TARS(モデル本体)
・UI-TARS: Pioneering Automated GUI Interaction with Native Agents(arXiv:2501.12326)
・UI-TARS-1.5-7B(Hugging Face)