返回模型列表
ByteDance: UI-TARS 7B
bytedance/ui-tars-1.5-7bJul 22, 2025128K 上下文2.0K 最大输出$0.10/M in · $0.20/M out
描述
UI-TARS-1.5 是一款面向 GUI 场景优化的多模态视觉-语言 agent,覆盖桌面界面、浏览器、移动系统与游戏等环境。由字节跳动研发,在 UI-TARS 框架基础上引入基于强化学习的推理,以在虚拟界面中实现稳健的动作规划与执行。
模型在 OSworld、WebVoyager、AndroidWorld、ScreenSpot 等交互与 grounding 基准上取得领先成绩,在多款 Poki 游戏中任务完成度出色,并在 Minecraft agent 任务上超越此前模型。UI-TARS-1.5 支持推理阶段的 thought 拆解,不同规模版本均有良好扩展表现,1.5 版显著超越此前 72B 与 7B 检查点。
技术规格
供应商
bytedance
上下文长度
128K
最大输出
2.0K
模态类型
输入imagetext
输出text
定价
| 类型 | 价格 / 百万 Token |
|---|---|
| 输入 | $0.10 |
| 输出 | $0.20 |
| 缓存读取 | $0.10 |
快速开始
curl https://api.ominigate.ai/v1/chat/completions \
-H "Authorization: Bearer sk-omg-your-api-key" \
-H "Content-Type: application/json" \
-d '{
"model": "bytedance/ui-tars-1.5-7b",
"messages": [{"role": "user", "content": "Hello!"}]
}'