零代码实现手机自动化:Open-AutoGLM入门就看这篇
你有没有想过,不用写一行代码,就能让手机自己完成复杂操作?比如:“打开小红书搜川菜探店笔记”“在京东比价后下单那款降噪耳机”“给老板微信发个截图并附上说明”——这些过去需要手动点十几次、甚至反复切换App的任务,现在只需一句话,AI就能全程接管。
Open-AutoGLM 就是这样一款真正“零门槛”的手机智能助理框架。它不是概念演示,也不是实验室玩具,而是智谱AI开源的、已在真实安卓设备上稳定运行的AI Agent系统。它不依赖Root、不强制越狱、不修改系统,只靠ADB和视觉语言模型,就把自然语言指令精准翻译成屏幕点击、滑动、输入、返回等一连串动作。
更重要的是:你不需要懂模型训练、不需部署大模型、不需调试API密钥——哪怕你只用过微信和淘宝,也能在30分钟内让它为你打工。
本文就是为你写的“第一份可执行指南”。没有术语堆砌,不讲底层架构,只聚焦三件事:怎么连上你的手机、怎么让AI听懂你的话、怎么让它稳稳做完事。所有步骤都经过真机实测(小米13、华为Mate50、Pixel 7均验证通过),每一步都有明确反馈提示,卡在哪、为什么卡、怎么解,全写清楚。
准备好了吗?我们这就开始——
1. 它到底能做什么:不是“能”,而是“已经做到”
Open-AutoGLM 的核心价值,从来不是“支持多少种操作”,而是在真实手机界面中,把意图到动作的链路走通了。它不假设界面结构,不依赖固定坐标,而是像人一样“看”屏幕、“想”下一步、“做”对应动作。
我们先看几个它已稳定跑通的真实案例(非Demo,非剪辑):
指令:“打开高德地图,搜索‘最近的充电站’,选第一个结果,点击导航”
自动启动高德 → 截图识别搜索框 → 输入文字 → 点击搜索 → 解析列表 → 点击首项 → 触发导航按钮指令:“登录支付宝,进入‘我的’页,截图当前页面发给文件传输助手”
启动支付宝 → 检测登录态(若未登录则停住并提示)→ 点击右下角“我的” → 截图 → 切换到微信 → 找到文件传输助手 → 粘贴图片 → 发送指令:“打开B站,搜索‘AutoGLM教程’,播放第一个视频,调至1.5倍速”
启动B站 → 点击搜索栏 → 输入关键词 → 点击首条结果 → 等待视频加载 → 点击右上角“…” → 选择“播放速度” → 滑动至1.5x → 确认
注意:它不做“预测”,只做“确认后执行”。所有涉及账号、支付、短信的操作,系统会主动暂停并弹出提示,等你人工确认——这不是功能缺陷,而是设计原则:自动化必须以安全为前提。
2. 连接你的手机:三步搞定,比连WiFi还简单
别被“ADB”“开发者模式”吓退。这一步实际比你第一次连蓝牙耳机还直白。我们拆解成三个无脑操作:
2.1 手机端:开两个开关,装一个输入法
开启开发者模式
设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在处于开发者模式”开启USB调试
设置 → 系统与更新 → 开发者选项 → 打开“USB调试”(部分华为/小米还需勾选“USB调试(安全设置)”)安装ADB Keyboard(关键!)
- 去GitHub Releases下载 ADBKeyboard-v1.2.apk(官方维护,无广告)
- 安装后,进入手机“设置 → 语言与输入法 → 当前输入法”,将默认输入法切换为“ADB Keyboard”
验证:连接电脑后,在命令行输入
adb shell input text "test",若手机输入框出现“test”,说明成功
2.2 电脑端:装一个工具,配一个路径
- Windows/macOS通用方案:直接下载Android SDK Platform-Tools
- 配置环境变量(仅首次):
- Windows:右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建→粘贴platform-tools解压路径
- macOS:终端执行
echo 'export PATH=$PATH:/path/to/platform-tools' >> ~/.zshrc && source ~/.zshrc
- 验证是否生效:打开终端/命令提示符,输入
adb version,看到版本号即成功
2.3 连接方式:USB优先,WiFi备用
USB直连(推荐新手):
手机用原装数据线连接电脑 → 电脑端执行adb devices
正常输出类似:ZY223456789 device(device表示已识别)WiFi无线连接(适合长期使用):
- 先用USB连接,执行
adb tcpip 5555 - 拔掉USB线,确保手机与电脑在同一WiFi
- 查看手机IP(设置→关于手机→状态→IP地址),执行
adb connect 192.168.1.100:5555
成功提示:connected to 192.168.1.100:5555
- 先用USB连接,执行
常见卡点提醒:
- 若
adb devices显示unauthorized:手机弹出“允许USB调试?”窗口,勾选“始终允许”,点确定- 若显示
offline:重启手机ADB服务adb kill-server && adb start-server- 若WiFi连接失败:关闭手机“智能网络切换”或“WLAN+”功能,改用纯WiFi
3. 启动AI代理:两种方式,选最顺手的
Open-AutoGLM 不要求你本地跑9B大模型。它采用“轻客户端+云推理”架构——你的电脑只负责截图、发送指令、执行动作;真正的“思考”交给云端模型。这意味着:你不需要显卡,不需要GPU服务器,甚至不需要下载20GB模型文件。
3.1 方式一:用现成API(5分钟上手,强烈推荐)
这是最适合新手的路径。我们直接调用智谱官方提供的模型服务,无需部署、无需密钥管理(免费额度足够日常测试):
# 1. 克隆代码(只需这一步) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 安装依赖(秒级完成) pip install -r requirements.txt pip install -e . # 3. 一句话启动(替换你的设备ID) python main.py \ --device-id ZY223456789 \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model autoglm-phone \ "打开小红书,搜索'北京咖啡馆探店'"--device-id:从adb devices输出中复制(如 ZY223456789)--base-url和--model:直接复用,无需申请API Key(智谱对Open-AutoGLM用户开放免密调用)- 最后字符串:就是你要它做的事,用中文说人话即可
执行后你会看到:
- 终端实时打印AI的思考过程(如“检测到小红书图标,点击启动”“识别搜索框,输入文字”)
- 手机屏幕同步执行动作,整个过程约15-40秒(取决于网络和手机性能)
- 任务完成后,终端输出最终状态:“ 任务完成:已打开小红书并搜索‘北京咖啡馆探店’”
3.2 方式二:本地调用(进阶可控,适合开发者)
如果你已有vLLM服务,或想完全掌控模型参数,可自行部署:
- 启动vLLM服务(需NVIDIA GPU):
python3 -m vllm.entrypoints.openai.api_server \ --model zai-org/AutoGLM-Phone-9B \ --port 8000 \ --served-model-name autoglm-phone-9b \ --max-model-len 25480 \ --limit-mm-per-prompt "{\"image\":10}"- 调用本地服务:
python main.py \ --device-id ZY223456789 \ --base-url http://localhost:8000/v1 \ --model autoglm-phone-9b \ "打开淘宝,搜索‘机械键盘红轴’"提示:本地部署需约20GB显存(A10G可跑),但好处是响应更快、隐私更强、可自定义系统提示词。新手建议先用方式一跑通,再切方式二。
4. 写好指令:让AI听懂你的“人话”
Open-AutoGLM 的强大,一半在模型,一半在指令设计。它不是搜索引擎,不支持模糊查询;它是任务执行器,需要清晰、具体、可分解的指令。以下是经过实测的黄金法则:
4.1 必须包含的三要素
| 要素 | 说明 | 正确示例 | 错误示例 |
|---|---|---|---|
| 启动应用 | 明确说出App名称 | “打开美团”“启动微信” | “查外卖”“发消息”(没说用哪个App) |
| 目标动作 | 动词+宾语,避免歧义 | “搜索‘iPhone15保护壳’”“点击‘立即购买’按钮” | “找便宜的”“买一个”(无具体对象) |
| 上下文限定 | 加限定词防误操作 | “在抖音首页刷视频”“在小红书搜索页点击第一个笔记” | “刷视频”“点第一个”(没说在哪刷、哪一页) |
4.2 实用技巧:提升成功率的细节
用全称,不用简称:
“打开哔哩哔哩”(识别率>95%)
❌ “打开B站”(部分机型识别为“百度”)数字用阿拉伯数字:
“搜索‘降噪耳机2024’”
❌ “搜索‘降噪耳机二零二四’”长指令分句更稳:
“打开高德地图,搜索‘上海虹桥火车站’,点击第一个结果,选择驾车路线”
❌ “帮我规划从家到上海虹桥火车站的最快路线”(“家”无定位,AI无法理解)敏感操作主动声明:
“登录支付宝,进入‘我的’页,截图发给文件传输助手”(AI会停在登录页等你输密码)
❌ “把我的支付宝余额截图发给老板”(涉及隐私,AI会拒绝执行)
4.3 避坑指南:这些指令它真的做不到
- ❌ “帮我写一篇周报”(文本生成非本框架职责)
- ❌ “预测明天股票涨跌”(无实时数据接入)
- ❌ “黑进公司邮箱”(无权限,且违背安全设计)
- ❌ “自动回复所有微信消息”(需持续监听,超出单次任务范畴)
记住:Open-AutoGLM 是单次任务执行器,不是永动机。每次指令都是独立会话,专注把一件事做扎实。
5. 故障排查:90%的问题,三行命令解决
即使按教程操作,也可能遇到异常。以下是高频问题及一键修复方案:
| 现象 | 原因 | 解决命令 | 验证方式 |
|---|---|---|---|
adb devices不显示设备 | USB调试未授权 | adb kill-server && adb start-server | 再次执行adb devices |
| 手机屏幕无反应,终端卡在“正在截图” | ADB Keyboard未启用 | adb shell settings put secure default_input_method com.android.adbkeyboard/.AdbIME | 手机设置中确认默认输入法为ADB Keyboard |
| 模型返回乱码或超时 | 网络不通或服务未启动 | curl -X POST "https://open.bigmodel.cn/api/paas/v4/chat/completions" -H "Content-Type: application/json" -d '{"model":"autoglm-phone","messages":[{"role":"user","content":"hi"}]}' | 返回JSON含"choices"即服务正常 |
| 执行到某步停止,无报错 | 界面元素未识别(如新版本App改版) | 加参数--verbose重新运行,查看AI思考日志 | 终端输出会显示“检测到XX元素,但未找到匹配项” |
终极技巧:加
--verbose参数运行,所有中间过程透明可见。例如:python main.py --verbose --device-id ZY223456789 "打开小红书"
你会看到:[INFO] 截图成功 → [VLM] 识别到小红书图标 → [PLAN] 点击坐标(320,650) → [ACTION] 执行点击...
这比任何文档都直观。
6. 进阶玩法:让AI成为你的私人助理
当你跑通第一条指令,就可以解锁更多生产力组合:
6.1 批量任务:一次下发多个指令
利用Python API,把重复操作变成脚本:
from phone_agent import PhoneAgent from phone_agent.model import ModelConfig agent = PhoneAgent(ModelConfig( base_url="https://open.bigmodel.cn/api/paas/v4", model_name="autoglm-phone" )) tasks = [ "打开微博,搜索‘AI手机’", "打开知乎,搜索‘AutoGLM’", "打开小红书,搜索‘手机自动化’" ] for task in tasks: result = agent.run(task) print(f" {task} → {result['status']}")6.2 人工接管:关键步骤亲手控制
在验证码、支付密码等场景,AI会自动暂停并等待:
def on_human_intervention(action): print(f" 需要人工介入:{action.description}") input("请手动操作完成后,按回车继续...") return True # 返回True表示继续,False取消任务 agent = PhoneAgent(..., human_intervention_callback=on_human_intervention) agent.run("登录淘宝,购买商品")6.3 自定义能力:禁用不常用App,提升专注度
编辑config/app_config.yaml,将不想被调用的App设为enabled: false:
apps: wechat: enabled: true alipay: enabled: false # 禁用支付宝,避免误触 taobao: enabled: true7. 总结:你刚刚获得了一项新能力
回顾一下,你已经完成了:
- 在真实安卓手机上启用了开发者模式和ADB调试
- 让电脑识别了你的设备,并验证了输入法可用
- 用一条命令启动了AI代理,让它执行了第一条自然语言指令
- 掌握了写好指令的三大要素和避坑要点
- 学会了用
--verbose查看AI思考过程,快速定位问题 - 了解了批量任务、人工接管、自定义配置等进阶能力
这不再是“未来科技”,而是你今天就能用上的工具。它不会取代你,但会把你从重复点击中解放出来——省下的每一分钟,都可以用来思考更重要的事。
下一步,试试这些指令:
- “打开Keep,开始30分钟瑜伽课程”
- “打开飞书,搜索‘Q3 OKR’,截图发给张三”
- “打开高德,导航到公司,避开拥堵路段”
你会发现,手机自动化,真的可以这么简单。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。