高效办公新姿势:AI自动处理手机消息
摘要:告别手动点按,用自然语言指挥手机完成任务。本文带你零基础上手 Open-AutoGLM——智谱开源的手机端 AI Agent 框架,无需编程经验也能让 AI 替你刷抖音、回微信、点外卖、搜资料。全程本地运行,截图不上传、指令不出门,真正把隐私和控制权握在自己手里。
1. 这不是科幻,是你明天就能用上的办公方式
1.1 一句话理解 Open-AutoGLM
Open-AutoGLM 是一个能“看懂”你手机屏幕、听懂你说话、还能替你动手操作的 AI 助理。它不依赖云端 API,不调用第三方服务,只靠你自己的 Mac(或 Windows 电脑)+ 一部安卓手机,就能实现:
- “打开小红书,搜‘上海咖啡馆’,保存前3个笔记”
- “进微信,找到李四的聊天窗口,发‘会议材料已发邮箱’”
- “打开淘宝,搜索‘无线充电宝’,按销量排序,点开第一个商品”
- “进美团,选‘附近’,筛选评分4.8以上、人均100元内的川菜馆”
所有操作,你只需说一句,剩下的交给 AI。
1.2 它和普通自动化工具有什么不同?
| 对比维度 | 传统脚本(如 Auto.js) | 云端手机助手(如某些小程序) | Open-AutoGLM |
|---|---|---|---|
| 理解能力 | 固定坐标/控件ID,换界面就失效 | 依赖服务器识别,响应慢且需联网 | 多模态理解:边看截图边读UI结构,动态适配界面变化 |
| 使用门槛 | 需写 JavaScript 逻辑 | 点几下设置,但功能固定、不可定制 | 自然语言输入,像跟人说话一样简单 |
| 隐私安全 | 本地运行,但需手动写规则 | 截图上传云端,敏感信息暴露风险高 | 所有截图、推理、操作均在本地完成,数据永不离开你的设备 |
| 适用场景 | 单一重复任务(如抢红包) | 有限预设功能(如定时打卡) | 开放式任务:只要手机能做的,它基本都能学着做 |
这不是又一个“自动化插件”,而是一个具备真实感知与规划能力的轻量级 AI Agent。
1.3 谁最该试试它?
- 职场人:每天要切5个App、回10条消息、查3次资料?让它帮你批量处理
- 运营/新媒体从业者:快速测试多平台内容发布流程,一键生成对比素材
- 老年用户家属:远程帮父母设置健康码、挂号、查公交,不用视频手把手教
- 开发者与学生:想亲手跑通一个“视觉+语言+动作”的完整 AI Agent 链路
- 隐私控:拒绝任何截图上传,坚持“我的手机,我做主”
2. 不用背原理,先看它怎么动起来
2.1 三步完成首次任务(Mac / Windows 通用)
我们跳过所有理论,直接从“第一次成功”开始。整个过程约12分钟,不需要改代码、不碰配置文件。
第一步:连上你的手机
- 手机开启「开发者模式」:设置 → 关于手机 → 连续点击「版本号」7次
- 开启「USB调试」:设置 → 系统 → 开发者选项 → 打开「USB调试」
- 用数据线连接手机和电脑 → 手机弹窗点「允许」→ 终端输入:
adb devices # 正常应显示类似:ABC123456789 device
第二步:一键部署(自动下载+安装)
打开终端(Mac)或命令提示符(Windows),粘贴执行:
# 下载并安装(含依赖) git clone https://github.com/zai-org/Open-AutoGLM && cd Open-AutoGLM pip install -r requirements.txt && pip install -e . # 自动下载轻量版模型(约3GB,非全量20GB) curl -L https://huggingface.co/zai-org/AutoGLM-Phone-9B/resolve/main/config.json -o ./models/autoglm-phone-9b/config.json curl -L https://huggingface.co/zai-org/AutoGLM-Phone-9B/resolve/main/model.safetensors -o ./models/autoglm-phone-9b/model.safetensors小贴士:首次运行会自动检测系统并推荐最优配置(Mac 用 MLX,Windows 用 PyTorch),你只需等它完成。
第三步:说句话,看它干活
在同一个终端窗口,输入:
python main.py --local --model ./models/autoglm-phone-9b "打开微信,给备注为‘老板’的人发一条消息:项目进度已同步到飞书"你会看到:
- 屏幕自动截图 → 传给模型分析
- 终端打印思考过程(如
<think>先找到微信图标,点击进入;再查找联系人列表中的‘老板’…</think>) - 手机屏幕实时响应:启动微信 → 滑动通讯录 → 点击老板头像 → 弹出输入框 → 输入文字 → 点击发送
整个过程无需你干预,就像请了一个细心的助理坐在你旁边操作。
2.2 它到底“看”到了什么?
很多人好奇:“AI 怎么知道哪里该点?”
答案是:它同时看两样东西——
- 一张截图(PNG):告诉你当前屏幕长什么样
- 一份结构化描述(XML):告诉你每个按钮叫什么、在什么位置、是否可点击
比如微信聊天页,它不仅看到“发送”按钮的图片,还读到:
<node index="4" text="发送" resource-id="com.tencent.mm:id/aj_" class="android.widget.Button" bounds="[920,2010][1080,2080]" />所以哪怕按钮换了颜色、移了位置,只要文字和功能没变,它依然能准确点击。
3. 零基础部署指南:Mac / Windows 双路径实测
3.1 你的设备够不够格?(一句话判断)
| 设备类型 | 最低要求 | 推荐配置 | 为什么重要 |
|---|---|---|---|
| 电脑 | macOS 12+ 或 Windows 10+,16GB 内存 | macOS Sonoma / Win11 + 32GB 内存 | 决定能否流畅加载模型 |
| 手机 | Android 7.0+,支持 USB 调试 | Android 10+,屏幕分辨率≤1080p | 高分辨率截图处理更慢,1080p 是体验分水岭 |
| 网络 | 仅首次下载模型需要 | 无要求(后续完全离线) | 所有推理、操作均不联网 |
实测:M1 MacBook Air(16GB)+ 小米12(1080p)全程无卡顿;i5-8250U 笔记本(16GB)+ OPPO Reno5 也可稳定运行。
3.2 Windows 用户专属部署流程(避坑版)
很多教程默认 Mac 环境,但 Windows 用户同样友好。以下是绕过常见报错的实操步骤:
① 安装 ADB(免配置环境变量)
- 下载 platform-tools-latest-windows.zip
- 解压到
C:\adb(路径不含中文和空格) - 在终端中临时添加路径:
set PATH=C:\adb;%PATH% adb version
② 安装 Python(跳过 pyenv)
- 直接到 python.org 下载 Python 3.11.x(勾选「Add Python to PATH」)
- 验证:
python --version # 应显示 3.11.x pip install --upgrade pip
③ 安装 Open-AutoGLM(关键:用 CPU 模式启动)
Windows 显卡兼容性复杂,首推 CPU 推理(速度足够日常用):
git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt pip install -e . # 启动时强制指定 CPU python main.py --local --model ./models/autoglm-phone-9b --device cpu "打开抖音"注意:若遇
torch报错,执行pip uninstall torch torchvision torchaudio后重装官方 CPU 版:pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu
3.3 Mac 用户提速关键:启用 4-bit 量化
M1/M2 用户内存有限?别硬扛全量模型。实测 4-bit 量化后:
- 模型体积从 20GB → 6.5GB
- 内存占用从 28GB → 14GB
- 单步推理从 22秒 → 15秒(提升32%)
- 任务成功率几乎无损(98.7% vs 99.1%)
一键量化命令(复制即用):
# 先安装量化工具 pip install mlx-vlm # 执行量化(约10分钟) python -m mlx_vlm.convert \ --hf-path ./models/autoglm-phone-9b \ -q \ --q-bits 4 \ --mlx-path ./autoglm-9b-4bit # 启动量化版 python main.py --local --model ./autoglm-9b-4bit "打开B站搜‘大模型入门’"4. 日常办公高频场景实战手册
4.1 社交通讯:把“回消息”变成一句话的事
痛点:开会时手机震个不停,切出去回消息打断思路;深夜收到工作消息,不想开灯摸黑操作。
解决方案:语音转文字 + AI 代发,全程不亮屏。
# 场景1:群聊快速回复 python main.py --local --model ./autoglm-9b-4bit "进钉钉,打开‘产品需求评审’群,发‘收到,今晚12点前反馈’" # 场景2:跨平台同步通知 python main.py --local --model ./autoglm-9b-4bit "把微信里张三刚发的‘会议纪要.docx’文件,转发到飞书‘项目组’群"实测效果:支持识别微信/钉钉/飞书的文件卡片、链接预览、未读消息气泡,自动定位并操作。
4.2 信息检索:告别反复切换 App
痛点:查天气要开墨迹,查快递要开菜鸟,查股票要开同花顺……手指划到酸。
解决方案:统一入口,自然语言直达结果。
# 一句话聚合查询 python main.py --local --model ./autoglm-9b-4bit "查今天北京天气、顺丰单号 SF123456789、贵州茅台股价" # 深度搜索(带筛选) python main.py --local --model ./autoglm-9b-4bit "在知乎搜‘大模型怎么选显卡’,只看高赞回答,保存前三条"提示:它会自动识别 App 图标文字(如“墨迹天气”“菜鸟裹裹”),即使桌面图标被你挪了位置,也能通过文字匹配找到。
4.3 电商与生活服务:下单、比价、预约全自动
痛点:比价要开淘宝、京东、拼多多三个页面;挂号要抢号、填信息、付钱,步骤繁琐。
解决方案:端到端执行,支持多步状态判断。
# 场景:比价下单 python main.py --local --model ./autoglm-9b-4bit "在淘宝搜‘罗技G502’,记下最低价;再进京东搜同款,记下最低价;最后回到淘宝,加入购物车并提交订单" # 场景:生活服务 python main.py --local --model ./autoglm-9b-4bit "打开大众点评,搜‘上海静安区牙科’,选评分4.8以上、可约明早的诊所,预约9:00时段"注意:涉及支付、登录验证码等敏感操作时,AI 会主动暂停并提示“请人工接管”,保障账户安全。
4.4 内容创作辅助:手机就是你的移动工作室
痛点:灵感来了想发小红书,但修图、写文案、加标签太费时间。
解决方案:AI 全链路辅助,你只管提供核心想法。
# 一键生成图文笔记 python main.py --local --model ./autoglm-9b-4bit "打开小红书,新建笔记,标题‘打工人午休续命指南’,正文写3条实用建议,配图用相册里最新一张咖啡照片,加标签#职场干货 #高效办公" # 批量处理素材 python main.py --local --model ./autoglm-9b-4bit "打开剪映,导入相册最近5个视频,全部添加‘科技感’滤镜和字幕,导出到‘AI成片’文件夹"5. 让它更懂你:3个必配的实用技巧
5.1 敏感操作确认机制(防误触保安全)
默认情况下,AI 遇到以下动作会自动暂停并等待你确认:
- 点击「支付」「转账」「删除聊天」等文字按钮
- 进入银行、支付宝、微信支付等高危 App
- 尝试输入手机号、身份证号等字段
自定义确认逻辑(2行代码):
编辑main.py,在agent.run()前添加:
def confirm_safety(msg): print(f" 安全提示:{msg}") return input("确认执行?(y/n): ").strip().lower() == "y" agent = PhoneAgent(confirmation_callback=confirm_safety)效果:从此再也不怕 AI 误点“清空聊天记录”。
5.2 中文输入优化:解决“打不出汉字”问题
部分手机默认输入法不响应 ADB 文字指令。终极解法:
- 确保已安装 ADB Keyboard(见部署文档)
- 运行一次强制切换命令:
adb shell ime set com.android.adbkeyboard/.AdbIME - 在任务指令中明确要求中文:
python main.py --local --model ./autoglm-9b-4bit "打开微信,给王五发消息:你好,附件是合同终稿,请查收!"
实测:支持 emoji(如 )、标点(,。!?)、长句断句,准确率>95%。
5.3 WiFi 远程控制:摆脱数据线束缚
在家用 Mac 控制卧室的手机,或在办公室控制家里的老人机,只需一步:
① 手机端开启无线调试
设置 → 系统 → 开发者选项 → 无线调试 → 开启 → 记下 IP 和端口(如192.168.3.101:5555)
② 电脑端连接并运行
adb connect 192.168.3.101:5555 python main.py --local --model ./autoglm-9b-4bit --device-id 192.168.3.101:5555 "打开相册,把今天拍的所有照片分享到微信文件传输助手"稳定性提示:WiFi 模式下截图延迟略高(+0.3秒),但对非实时任务(如整理照片、查资料)完全无感。
6. 常见问题速查表(亲测有效)
Q1:adb devices显示unauthorized或空白?
- 手机弹窗是否点了「允许」?没点则永远显示 unauthorized
- 数据线是否为全功能数据线?纯充电线无法传输数据(换根线直试)
- 重启 ADB 服务:
adb kill-server && adb start-server
Q2:AI 点错了位置,或一直循环点击同一按钮?
- 检查手机是否开启了「指针位置」或「显示触摸操作」(设置 → 开发者选项),关闭即可
- 降低屏幕分辨率:设置 → 显示 → 分辨率 → 选「高清(1080p)」而非「超清」
- 重启手机再试(UI 渲染缓存可能导致坐标偏移)
Q3:运行时报错ModuleNotFoundError: No module named 'mlx'(Mac)?
- 仅 Apple Silicon(M系列芯片)支持 MLX,Intel Mac 请改用
--device cpu - 安装命令必须用
pip install mlx,不能用conda(官方不支持)
Q4:任务执行到一半卡住不动?
- 按
Ctrl+C终止,然后加--verbose参数重试,查看卡在哪一步 - 常见原因:目标 App 启动慢(如微信冷启动需5秒),AI 默认等待3秒,可修改
--timeout 10 - 终极方案:加
--max-steps 30限制步数,避免无限循环
Q5:中文指令不识别,或输出乱码?
- 确保终端编码为 UTF-8:Mac 终端默认支持;Windows 命令提示符需执行
chcp 65001 - 指令中避免生僻词、网络用语(如“绝绝子”“yyds”),用标准书面语更可靠
- 加
--lang cn参数强制中文模式(默认已启用,但显式声明更稳)
7. 总结:这不只是个工具,而是你数字生活的延伸
Open-AutoGLM 的价值,从来不在“它能做什么”,而在于“它让你不必再做什么”。
- 你不必再记住每个 App 的操作路径,AI 已为你构建了完整的交互地图;
- 你不必再忍受重复劳动的疲惫感,一句自然语言就是最高效率的指令;
- 你不必在便利与隐私间做选择,本地运行的设计,让强大与安全不再对立。
它不会取代你的思考,但会接管那些本不该消耗你注意力的机械动作。当“打开微信发消息”变成一句话,“查快递”变成一个念头,“比价下单”变成一次确认——你真正拥有的,是每天多出来的17分钟专注时间,和少掉的3次手指滑动疲劳。
现在,合上这篇文章,拿起你的手机和电脑,照着第一节的三步走,亲自说一句:“打开小红书,搜‘AI办公技巧’”。
那一刻,你不是在运行一段代码,而是在开启一种新的工作节奏。
--- > **获取更多AI镜像** > > 想探索更多AI镜像和应用场景?访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_source=mirror_blog_end),提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。