手机AI新玩法！Open-AutoGLM让生活更高效-智慧文博士

手机AI新玩法！Open-AutoGLM让生活更高效

你有没有想过，手机也能拥有自己的“大脑”？不是那种只能听指令的语音助手，而是真正能看懂屏幕、理解界面、思考步骤、自动点击滑动的智能体——就像给手机装上一双眼睛和一双手。今天要聊的 Open-AutoGLM，正是这样一套开源框架：它不依赖云端API，不调用第三方服务，所有操作都在本地完成；你只需说一句“打开小红书搜美食”，它就能自己截图、识别图标、点开App、输入文字、点击搜索，全程无需你动手。

这不是概念演示，也不是实验室玩具。它是智谱AI开源的 Phone Agent 实现方案，基于 AutoGLM-Phone-9B 多模态模型，专为安卓手机设计，支持真实设备与模拟器，已在美团、微信、抖音、淘宝等50+主流应用中稳定运行。更重要的是，它对新手友好——哪怕你没写过一行Python，只要按步骤连上数据线、点几下设置，15分钟内就能让AI替你刷完朋友圈、订好外卖、甚至帮你关注一个抖音博主。

这篇文章不讲抽象架构，不堆技术参数，只聚焦一件事：怎么让你的手机真正“活”起来。我们会从零开始，带你完成全部部署，跑通第一个任务，并展示它在真实生活中的实用价值。没有术语轰炸，只有清晰路径；没有理论空谈，只有可执行的命令和看得见的效果。

1. 它到底能做什么？先看几个真实场景

别急着装环境，我们先看看 Open-AutoGLM 在真实生活中能帮你解决哪些“烦人小事”。

1.1 场景一：点外卖不用手忙脚乱

你说：“帮我订一份评分4.8以上的川菜，送到公司，备注不要香菜。”
AI会自动：
打开美团 → 切换到“附近”页 → 搜索“川菜” → 筛选评分≥4.8 → 点击第一家 → 加入购物车 → 填写公司地址 → 输入备注 → 进入支付页（停住，等你确认）

整个过程平均耗时约42秒，中间所有界面跳转、按钮定位、文字输入均由AI自主完成。

1.2 场景二：社交操作一键批量处理

你说：“打开微信，给张三、李四、王五的朋友圈最新一条动态点赞。”
AI会：
启动微信 → 进入通讯录 → 分别找到三人 → 进入各自朋友圈 → 定位最新一条 → 点击爱心图标 → 自动切换下一个

这比你手动点三次快得多，也比复制粘贴消息更自然。

1.3 场景三：跨App信息联动

你说：“把刚才小红书收藏的那篇‘北京咖啡馆推荐’，发到微信给同事小陈。”
AI会：
切换到小红书 → 进入“收藏”页 → 找到标题含“北京咖啡馆”的笔记 → 长按分享 → 选择微信 → 搜索“小陈” → 发送

它能记住上下文、跨应用抓取内容、理解语义关联——这才是真正意义上的“智能助理”，而不是“高级快捷指令”。

这些不是预设脚本，也不是固定流程。背后是视觉语言模型实时理解当前屏幕、结合大模型推理生成动作序列、再通过ADB精准执行。换句话说：它不是在“回放录像”，而是在“现场决策”。

2. 准备工作：三样东西，缺一不可

部署 Open-AutoGLM 不需要服务器、不依赖GPU云平台，但有三样基础条件必须满足。我们用最直白的方式说明，不绕弯子。

2.1 你的电脑：只是个“遥控器”，不跑大模型

系统：Windows 10/11 或 macOS Monterey 及以上（Linux也可，但本文以Win/Mac为主）
Python：3.10 或更高版本（别装3.12，部分依赖暂不兼容）
硬盘空间：至少留出25GB空闲（模型文件18GB + 项目代码 + 缓存）

小贴士：如果你只是想试试效果，不需要训练或微调，显卡不是必需项。CPU模式虽慢一点（单任务约多花3–5秒），但完全可用。NVIDIA显卡用户建议搭配vLLM使用，速度提升明显。

2.2 你的手机：安卓7.0+，真机优先

系统版本：Android 7.0（Nougat）及以上（iOS不支持，这是安卓专属框架）
物理要求：能正常连接电脑的数据线（非仅充电线）、屏幕分辨率≥720p（太低可能影响识别）
关键设置：必须开启“开发者选项”和“USB调试”（后面会一步步教你怎么开）

注意：模拟器（如BlueStacks、MuMu）也可用，但首次建议用真机。因为真实触控反馈、APP渲染细节、权限弹窗逻辑更贴近日常使用，调试成功率更高。

2.3 ADB工具：手机和电脑之间的“翻译官”

ADB（Android Debug Bridge）是谷歌官方提供的调试桥接工具，Open-AutoGLM 所有点击、滑动、截图、输入都靠它完成。它不是某个软件，而是一组命令行程序。

你不需要懂原理，只需两步：

下载：去 Android SDK Platform-Tools 页面下载对应系统的压缩包
配置：把解压后的platform-tools文件夹路径加进系统环境变量（Win/Mac都有详细指引，5分钟搞定）

验证是否成功？打开命令行，输入：

adb version

如果显示类似Android Debug Bridge version 1.0.41，就说明装好了。

3. 手机端设置：三步开启“被控制权”

很多新手卡在这一步。其实很简单，就是告诉手机：“允许这台电脑远程操作我”。全程在手机设置里点几下，无须ROOT、无须安装额外管理软件。

3.1 开启开发者模式（一次设置，永久有效）

打开手机「设置」→「关于手机」→ 找到「版本号」或「软件信息」
连续点击「版本号」7次（数着点，别快别慢）
看到提示“您已处于开发者模式”即可

成功标志：返回上一级，能看到新出现的「开发者选项」

3.2 开启USB调试（每次连接都需要）

进入「开发者选项」→ 找到「USB调试」→ 右侧开关打开
如果弹出“允许USB调试吗？”对话框，勾选“一律允许”，再点“确定”

常见问题：插上数据线后没反应？检查手机通知栏是否有“USB用于…”提示，点开选“文件传输”或“MTP”模式（不是“仅充电”）

3.3 安装ADB Keyboard（中文输入的关键）

默认安卓输入法无法被ADB直接调用，所以必须装一个专用输入法：ADB Keyboard。

安装方式（任选其一）：

方法A（推荐）：用命令行一键安装
```
adb install ADBKeyboard.apk
```
（APK文件可从 GitHub Release页下载）
方法B（手动）：下载APK → 用手机浏览器打开安装 → 安装完成后，进入「设置」→「系统」→「语言和输入法」→「虚拟键盘」→ 启用「ADB Keyboard」

验证是否生效：在任意输入框长按，选择“输入法” → 应能看到“ADB Keyboard”选项。之后AI就能为你输入中文了。

4. 部署流程：从克隆代码到第一次运行

现在进入正题。整个过程分四步：下载代码 → 安装依赖 → 启动模型 → 运行代理。每一步我们都给出完整命令和预期输出，照着敲就行。

4.1 克隆项目并安装Python依赖

打开终端（Mac/Linux）或命令提示符（Windows），依次执行：

# 1. 克隆Open-AutoGLM项目（约2MB） git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 创建虚拟环境（推荐，避免污染全局Python） python -m venv venv source venv/bin/activate # Mac/Linux # venv\Scripts\activate # Windows # 3. 安装项目依赖（含ADB通信、图像处理等核心库） pip install -r requirements.txt pip install -e .

预期输出：最后几行应显示Successfully installed ...，无红色报错即成功。

4.2 下载并启动AI模型（核心大脑）

Open-AutoGLM 本身不包含模型，需单独下载 AutoGLM-Phone-9B（约18GB）。国内用户强烈推荐用ModelScope镜像加速：

# 下载模型（国内用户用此命令，快10倍） git clone https://www.modelscope.cn/ZhipuAI/AutoGLM-Phone-9B.git # 启动vLLM服务（监听本地8000端口） python -m vllm.entrypoints.openai.api_server \ --model ./AutoGLM-Phone-9B \ --served-model-name autoglm-phone-9b \ --port 8000 \ --max-model-len 25480 \ --chat-template-content-format string

预期输出：看到Uvicorn running on http://0.0.0.0:8000即表示模型服务已就绪。保持这个窗口开着，不要关闭。

4.3 连接手机并运行第一个任务

确保手机已通过USB连接电脑，且adb devices能识别：

adb devices # 正常输出示例： # List of devices attached # 1234567890abcdef device

然后，在 Open-AutoGLM 目录下运行：

python main.py \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开设置"

预期效果：
手机屏幕自动亮起 → 进入桌面 → 找到“设置”图标 → 点击打开
终端输出类似：
💭 思考过程: 当前在桌面，检测到“设置”图标，准备点击 执行动作: {"action": "Click", "x": 520, "y": 1830} 动作完成：已打开设置应用

恭喜！你完成了AI手机的第一步。整个过程无需任何截图、坐标标注或规则编写——全靠模型自己“看”和“想”。

5. 实用技巧：让AI更懂你、更可靠

刚跑通只是开始。下面这些技巧，能让你从“能用”走向“好用”，大幅提升成功率和体验感。

5.1 指令怎么写才更准？三个原则

Open-AutoGLM 不是关键词匹配，而是语义理解。但清晰的表达能让它少走弯路：

原则1：用完整动词短语，不说半句
❌ “小红书美食”
“打开小红书，搜索‘北京美食攻略’”
原则2：涉及APP名时，用大众常用称呼
❌ “打开‘美团外卖’”（它可能识别为“美团”）
“打开美团，搜索附近火锅店”
原则3：复杂任务拆成单步，或加明确约束
❌ “帮我买耳机”（太模糊）
“打开京东，搜索‘蓝牙耳机’，按销量排序，点击第一个商品”

5.2 WiFi无线控制：摆脱数据线束缚

不想一直插着线？Open-AutoGLM 支持WiFi远程控制，设置一次，长期受益：

# 1. 先用USB连上，开启TCP/IP模式 adb tcpip 5555 # 2. 断开USB，用WiFi连接（手机和电脑在同一局域网） adb connect 192.168.1.100:5555 # 替换为手机实际IP # 3. 验证连接 adb devices # 应显示 IP:5555 device

后续所有命令只需把--device-id换成IP地址即可，例如：
python main.py --device-id 192.168.1.100:5555 --base-url ... "打开微信"

5.3 敏感操作人工接管：安全第一

涉及支付、删除、授权等高风险动作时，AI会主动暂停，等你确认：

python main.py \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开美团订一份外卖"

当走到支付页时，终端会输出：

需要确认：即将支付28.5元，是否继续？(y/n):

你敲y才继续，敲n就终止。这个机制默认开启，无需额外配置。

6. 真实能力边界：它强在哪？弱在哪？

技术文章最怕“王婆卖瓜”。我们坦诚告诉你 Open-AutoGLM 的真实表现，帮你判断是否值得投入时间。

6.1 它特别擅长的三类任务

类型	举例	成功率	说明
界面导航类	“打开设置→进入WLAN→开启热点”	≥95%	图标识别+层级跳转非常稳定，尤其对系统级App
结构化搜索类	“在淘宝搜‘降噪耳机’，按销量排序”	≥90%	对搜索框、排序按钮、列表项识别准确
跨App信息流转	“把知乎收藏的‘Python入门’链接，发到微信给导师”	≥85%	能理解“收藏”“链接”“发给”等语义，但需目标APP已登录

6.2 当前仍需注意的局限

验证码/图形密码：遇到短信验证码、手势密码、人脸识别，AI会停住并提示“需人工接管”，这是设计使然，非缺陷
极简UI或自定义皮肤：某些国产定制ROM（如MIUI深色模式、华为鸿蒙纯黑主题）可能影响图标识别，建议用标准安卓主题测试
长文本输入：一次性输入超50字中文可能偶发错字，建议拆成两步：“输入收货人”→“输入电话号码”

实测建议：首次使用，从“打开XX App”“搜索XXX”这类简单指令开始，逐步增加复杂度。你会发现，它的学习曲线很平缓——越用越准。

7. 进阶玩法：不只是“听话”，还能“定制”

当你熟悉基础操作后，可以尝试这些让AI更贴合你习惯的玩法。

7.1 自定义系统提示词（改“性格”）

编辑phone_agent/config/prompts.py文件，修改SYSTEM_PROMPT字段。比如你想让它更“谨慎”，可以加：

SYSTEM_PROMPT = """ 你是一个细致、保守的手机助手。执行任何操作前，请确认： 1. 当前界面是否加载完成（检查关键文字/图标是否可见） 2. 操作是否会退出当前APP（如返回键） 3. 涉及输入时，先确认光标是否在正确位置 """

保存后重启main.py，它就会按新规则行动。

7.2 批量任务脚本（解放双手）

用Python API写个循环，自动处理重复劳动：

from phone_agent import PhoneAgent from phone_agent.model import ModelConfig agent = PhoneAgent(ModelConfig(base_url="http://localhost:8000/v1", model_name="autoglm-phone-9b")) tasks = [ "打开微博，关注@科技每日推送", "打开豆瓣，标记《奥本海默》为想看", "打开网易云，播放每日推荐歌单" ] for task in tasks: print(f"\n 执行：{task}") result = agent.run(task) print(f" 结果：{result}") time.sleep(3) # 每次间隔3秒，避免操作过快

7.3 与其他工具链式调用（构建工作流）

比如先用ChatGPT润色文案，再让Open-AutoGLM发到小红书：

import openai from phone_agent import PhoneAgent # 1. 调用ChatGPT生成文案 response = openai.ChatCompletion.create( model="gpt-3.5-turbo", messages=[{"role": "user", "content": "写一段小红书风格的咖啡探店文案，200字以内"}] ) caption = response.choices[0].message.content # 2. 让AI发到小红书 agent = PhoneAgent(ModelConfig(base_url="http://localhost:8000/v1", model_name="autoglm-phone-9b")) agent.run(f"打开小红书，发布图文，标题：周末咖啡地图，正文：{caption}")

8. 总结：你的手机，从此多了一个“数字分身”

回顾一下，今天我们做了什么：
用不到20分钟，让一台普通安卓手机拥有了“视觉+思考+执行”三位一体的AI能力；
不依赖任何云服务，所有数据留在本地，隐私可控；
从“打开设置”到“跨App发消息”，验证了它在真实生活场景中的实用性；
掌握了WiFi控制、敏感确认、指令优化等关键技巧，不再是“玩具级”体验；
还解锁了自定义提示词、批量脚本、外部工具集成等进阶能力。

Open-AutoGLM 的意义，不在于它多“酷”，而在于它多“实”。它不追求取代人类，而是把那些机械、重复、费时的手机操作交出去，让你专注真正重要的事——比如认真看一条朋友发来的消息，而不是忙着点开、复制、粘贴、发送。

技术终将回归人的需求。而此刻，你的手机，已经准备好成为那个更安静、更可靠、更懂你的伙伴。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

手机AI新玩法！Open-AutoGLM让生活更高效