news 2026/4/3 2:58:20

Midscene v1.0 发布 - 视觉驱动,UI 自动化体验跃迁

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Midscene v1.0 发布 - 视觉驱动,UI 自动化体验跃迁

文章来源|ByteDance Web Infra 团队

Midscene 自 2024 年开源发布以来,已经在 Github 斩获 11k star 、Trending 榜第二名等成绩,并在互联网、金融、政企、汽车等大量应用场景下完成落地。

本月,我们正式宣布 Midscene v1.0 发布!本文将为你介绍:

  • 案例回顾:Midscene 在 PC、Android、iOS 等场景的任务能力;

  • 社区案例:社区开发者基于 Midscene 与任意界面集成的特性,扩展了机械臂 + 视觉模型 + 语音模型等模块,完成车机测试;

  • 1.0 版本的模型路线:拥抱纯视觉;

  • 1.0 版本的特性优化:报告优化、MCP 架构、跨端增强、API 变更等。

案例回顾

社区案例:视觉模型 + 机械臂

有社区开发者成功基于 Midscene 与任意界面集成的特性,扩展了机械臂 + 视觉模型 + 语音模型等模块,运用于车机大屏测试场景中。

视觉模型 + 机械臂

可在公众号查看视频:https://mp.weixin.qq.com/s/24rFtAfihEos6f1u83jeLg

移动端案例:外卖下单

打开美团,帮我下单一杯 manner 超大杯冰美式咖啡,要加浓少冰喔,到结算页面让我确认。

外卖下单

在我们的 Midscene 官网上,还有更多实战案例:

  1. iOS 自动化 - Twitter 自动点赞 @midscene_ai 首条推文;

  2. Android 自动化 - 懂车帝查看小米 SU7 参数;

  3. Android 自动化 - Booking 预订圣诞酒店;

  4. MCP 集成 - Midscene MCP 操作界面发布 prepatch 版本。

1.0 版本的模型路线

从 V1.0 开始,Midscene 全面转向视觉理解方案,提供更稳定可靠的 UI 自动化能力。

视觉模型有以下特点:

  • 效果稳定:业界领先的视觉模型(如 Doubao Seed 1.6、Qwen3-VL 等)表现足够稳定,已经可以满足大多数业务需求;

  • UI 操作规划:视觉模型通常具备较强的 UI 操作规划能力,能够完成不少复杂的任务流程;

  • 适用于任意系统:自动化框架不再依赖 UI 渲染的技术栈,无论是 Android、iOS、桌面应用,还是浏览器中的<canvas>,只要能获取截图,Midscene 即可完成交互操作;

  • 易于编写:抛弃各类 selector 和 DOM 之后,开发者与模型的“磨合”会变得更简单,不熟悉渲染技术的新人也能很快上手;

  • token 量显著下降:在去除 DOM 提取之后,视觉方案的 token 使用量可以减少 80%,成本更低,且本地运行速度也变得更快

  • 有开源模型解决方案:开源模型表现渐佳,开发者开始有机会进行私有化部署模型,如 Qwen3-VL 提供的 8B、30B 等版本在不少项目中都有着不错的效果。

详情请阅读我们更新版的模型策略[1]。

🚀 多模型组合,为复杂任务带来更好效果

除了默认的交互场景,Midscene 还定义了 Planning(规划)和 Insight(洞察)两种意图,开发者可以按需为它们启用独立的模型。例如,用 GPT 模型做规划,同时使用默认的 Doubao 模型做元素定位。

多模型组合让开发者可以按需提升复杂需求的处理能力。

🚀 运行时架构优化

针对 Midscene 的运行时表现,我们进行了以下优化:

  • 减少对设备信息接口的调用,在确保安全的情况下复用部分上下文信息,提升运行时性能,让大多数的时间消耗集中在模型端;

  • 优化 Web 及移动端环境下的 Action Space 组合,向模型开放更合理、更清晰的工具集。

🚀 回放报告优化

回放报告是 Midscene 开发者非常依赖的一个特性,它能有效提升脚本的调试效率。

在 v1.0 中,我们更新了回放报告:

  • 参数视图:标记出交互参数的位置信息,合并截图信息,快速识别模型的规划结果;

  • 样式调整:支持以深色模式展示报告,更美观;

  • Token 消耗的展示:支持按模型汇总 Token 消耗量,分析不同场景的成本情况。

🚀 MCP 架构重构

我们重新定义了 Midscene MCP 服务的定位。Midscene MCP 的职责是围绕着视觉驱动的 UI 操作展开,将 iOS / Android / Web 设备 Action Space 中的每个 Action 操作暴露为 MCP 工具,也就是提供各类“原子操作”。

通过这种形式,开发者可以更专注于构建自己的高阶 Agent,而无需关心底层 UI 操作的实现细节,并且时刻获得满意的成功率。

详情请阅读MCP 文档[2]。

🚀 移动端能力增强

iOS 改进

  • 新增 WebDriverAgent 5.x-7.x 全版本兼容;

  • 新增 WebDriver Clear API 支持,解决动态输入框问题;

  • 提升设备兼容性。

Android 改进

  • 新增截图轮询回退机制,提升远程设备稳定性;

  • 新增屏幕方向自动适配(displayId 截图);

  • 新增 YAML 脚本runAdbShell支持。

跨平台

  • 在 Agent 实例上暴露系统操作接口,包括 Home、Back、RecentApp 等。

🚧 API 变更

方法重命名(向后兼容):

  • 改名aiAction()aiAct()(旧方法保留,有弃用警告);

  • 改名logScreenshot()recordToReport()(旧方法保留,有弃用警告)。

环境变量重命名(向后兼容):

  • 改名OPENAI_API_KEYMODEL_API_KEY(新变量优先,旧变量作为备选);

  • 改名OPENAI_BASE_URLMODEL_BASE_URL(新变量优先,旧变量作为备选)。

⬆️ 升级到最新版

升级项目中的依赖,例如:

npm install @midscene/web@latest --save-dev

npm install @midscene/android@latest --save-dev

npm install @midscene/ios@latest --save-dev

如果使用全局安装的命令行版本:

npm i -g @midscene/cli

了解更多

  • Midscene.js https://midscenejs.com

  • Github https://github.com/web-infra-dev/midscene

  • 1.0 版本 Changelog https://midscenejs.com/zh/changelog.html

参考资料

[1] 模型策略: https://midscenejs.com/zh/model-strategy

[2] MCP 文档: https://midscenejs.com/zh/mcp

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/2 11:07:31

PyTorch-CUDA-v2.9镜像发布:开箱即用的AI开发神器

PyTorch-CUDA-v2.9镜像发布&#xff1a;开箱即用的AI开发神器 在深度学习项目中&#xff0c;你是否经历过这样的场景&#xff1f;刚拿到一台新服务器&#xff0c;兴致勃勃准备训练模型&#xff0c;结果花了整整一天才配好环境——PyTorch装不上、CUDA版本不匹配、cuDNN找不到……

作者头像 李华
网站建设 2026/3/25 12:41:01

PyTorch Early Stopping避免过拟合(GPU资源节约)

PyTorch Early Stopping&#xff1a;如何高效防止过拟合并节约GPU资源 在深度学习项目中&#xff0c;你是否曾遇到这样的情况——模型在训练集上表现越来越好&#xff0c;验证损失却开始反弹&#xff1f;或者训练跑了几十个epoch后才发现&#xff0c;最佳性能其实在第15轮就已达…

作者头像 李华
网站建设 2026/3/30 18:10:16

从零实现一个最小化的嵌入式可执行文件示例

从零构建一个最小化的嵌入式可执行文件&#xff1a;深入理解程序启动的本质 你有没有想过&#xff0c;当一颗MCU上电的那一刻&#xff0c;第一行代码是怎么跑起来的&#xff1f; 不是 main() &#xff0c;也不是 printf &#xff0c;而是更底层、更原始的一段二进制指令流…

作者头像 李华
网站建设 2026/4/2 2:00:57

PyTorch-CUDA-v2.9镜像在能源负荷预测中的实践

PyTorch-CUDA-v2.9镜像在能源负荷预测中的实践 在智能电网和能源管理系统日益复杂的今天&#xff0c;如何准确预判未来一段时间内的电力负荷&#xff0c;已成为调度决策、资源优化与碳排管理的关键前提。尤其是在新能源接入比例不断提升的背景下&#xff0c;风电、光伏出力波动…

作者头像 李华
网站建设 2026/3/13 6:38:13

PyTorch-CUDA-v2.9镜像支持语音唤醒Word Spotting

PyTorch-CUDA-v2.9 镜像在语音唤醒任务中的实践与优化 在智能设备日益普及的今天&#xff0c;用户对“始终在线、即时响应”的语音交互体验提出了更高要求。无论是清晨唤醒智能音箱说一句“早上好”&#xff0c;还是驾驶途中轻唤“导航回家”&#xff0c;背后都依赖于一项关键技…

作者头像 李华
网站建设 2026/3/27 3:23:21

手把手教你搭建OpenBMC开发环境(新手教程)

手把手教你从零构建 OpenBMC 开发环境&#xff1a;新手也能看懂的实战指南 你有没有遇到过这样的场景&#xff1f;服务器突然宕机&#xff0c;运维人员还得跑到机房插显示器查日志&#xff1b;或者想批量重启几十台机器&#xff0c;只能一台一台点 Web 界面。这些问题的背后&a…

作者头像 李华