返回模型列表

ByteDance: UI-TARS 7B

bytedance/ui-tars-1.5-7b
Jul 22, 2025128K 上下文2.0K 最大输出$0.10/M in · $0.20/M out

描述

UI-TARS-1.5 是一款面向 GUI 场景优化的多模态视觉-语言 agent,覆盖桌面界面、浏览器、移动系统与游戏等环境。由字节跳动研发,在 UI-TARS 框架基础上引入基于强化学习的推理,以在虚拟界面中实现稳健的动作规划与执行。

模型在 OSworld、WebVoyager、AndroidWorld、ScreenSpot 等交互与 grounding 基准上取得领先成绩,在多款 Poki 游戏中任务完成度出色,并在 Minecraft agent 任务上超越此前模型。UI-TARS-1.5 支持推理阶段的 thought 拆解,不同规模版本均有良好扩展表现,1.5 版显著超越此前 72B 与 7B 检查点。

技术规格

供应商
bytedance
上下文长度
128K
最大输出
2.0K
模态类型
输入imagetext
输出text

定价

类型价格 / 百万 Token
输入$0.10
输出$0.20
缓存读取$0.10

快速开始

curl https://api.ominigate.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-omg-your-api-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "bytedance/ui-tars-1.5-7b",
    "messages": [{"role": "user", "content": "Hello!"}]
  }'