手把手教你部署Open-AutoGLM,轻松打造会干活的AI助理
你有没有想过,有一天只要说一句“帮我点个外卖”,手机就能自动打开App、选餐厅、下单支付,全程不需要你动手?这听起来像科幻片的场景,现在通过Open-AutoGLM已经可以实现了。
这是一个由智谱AI开源的手机端AI Agent框架,名字叫AutoGLM-Phone。它不只是会聊天的AI,而是一个真正能“动手做事”的智能助理。你只需要用自然语言下指令,比如“打开小红书搜美食”、“给老板发条微信说我在路上了”,它就能看懂屏幕、理解界面、自动点击滑动,把整套操作完成。
更厉害的是——它是开源的,你可以自己部署,完全掌控数据安全,还能根据需求定制功能。本文就是一份从零开始的实战部署指南,哪怕你是第一次接触ADB、AI模型或者自动化工具,也能一步步跟着操作,亲手让AI接管你的手机。
准备好了吗?我们这就开始。
1. Open-AutoGLM 是什么?它为什么特别?
在讲怎么用之前,先搞清楚:这到底是个什么东西?
简单来说,Open-AutoGLM 是一个基于视觉语言模型(VLM)的手机自动化智能体(Agent)框架。它的核心能力有三个:
- 看得懂屏幕:通过截图+多模态模型分析,理解当前手机界面有哪些按钮、文字、输入框。
- 听得懂人话:接收你的自然语言指令,比如“查一下明天北京到上海的高铁票”。
- 做得了事情:结合 ADB(Android Debug Bridge),自动执行点击、滑动、输入等操作,真正“动手”。
和传统意义上的“脚本自动化”不同,Open-AutoGLM 不需要你提前写死每一步操作。它具备自主规划能力,能根据当前界面动态决定下一步该做什么,就像一个真人用户在操作手机。
举个例子:
指令:“打开抖音,搜索ID为 dycwo11nt61d 的博主并关注他。”
AI会这样思考和行动:
- 当前是不是在桌面?不是就先返回桌面。
- 找“抖音”图标,点击进入。
- 进入后找搜索框,点击并调用ADB键盘输入账号名。
- 点击搜索结果中的目标用户。
- 判断是否已关注,如果没有,点击“关注”按钮。
整个过程无需人工干预,也不依赖固定坐标或控件ID,靠的是对界面语义的理解。
而且系统还内置了敏感操作确认机制,比如涉及支付、删除等动作时,会暂停并提示你确认,避免误操作。同时支持验证码、登录弹窗等人机交互场景下的“人工接管”,非常贴心。
一句话总结:
它让大模型真正接入了移动设备的操作层,实现了“语言即指令,AI即助手”的闭环体验。
2. 部署前的准备工作
要让这个AI助理跑起来,我们需要准备三样东西:
- 一台安卓设备(真机或模拟器)
- 本地电脑环境(运行控制端代码)
- 一个可用的AutoGLM模型服务(云端或本地)
下面我们逐一配置。
2.1 硬件与系统要求
| 项目 | 要求 |
|---|---|
| 操作系统 | Windows / macOS(推荐) |
| Python 版本 | 3.10 或更高版本 |
| 安卓设备 | Android 7.0+ 或 HarmonyOS 设备 |
| ADB 工具 | 必须安装并配置好环境变量 |
| 网络连接 | 手机与电脑在同一局域网(WiFi方式)或USB直连 |
建议优先使用Windows + 真机或macOS + Android Studio 模拟器组合,稳定性最好。
2.2 安装Python环境
如果你还没装Python,请去官网下载 python.org 最新版(3.10~3.12均可)。
安装时务必勾选“Add Python to PATH”,否则后续命令行无法识别python命令。
验证是否安装成功:
python --version输出类似Python 3.12.7即表示正常。
2.3 下载并配置ADB工具
ADB(Android Debug Bridge)是连接和控制安卓设备的核心工具。
下载地址:
前往 Android开发者官网 下载 platform-tools 包。
解压后得到adb.exe(Windows)或可执行文件(macOS/Linux)。
配置环境变量:
Windows:
- 右键“此电脑” → 属性 → 高级系统设置 → 环境变量
- 在“系统变量”中找到
Path,点击编辑 → 新建 - 添加你解压后的 platform-tools 文件夹路径(如
C:\tools\platform-tools) - 保存后打开新终端,输入:
如果显示版本号,说明配置成功。adb version
macOS:在终端中执行:
export PATH=${PATH}:~/Downloads/platform-tools(假设你解压到了 Downloads 目录)
为了永久生效,可以把这行加到.zshrc或.bash_profile中。
3. 手机端设置:开启调试权限
无论用真机还是模拟器,都必须开启开发者选项和USB调试。
3.1 开启开发者模式
进入手机「设置」→「关于手机」→ 连续点击“版本号”7次以上,直到提示“您已进入开发者模式”。
3.2 启用USB调试
返回设置主菜单 →「开发者选项」→ 打开「USB调试」开关。
部分手机还需要开启「USB安装」、「USB调试(安全设置)」等选项,请根据提示操作。
3.3 安装ADB Keyboard(关键!)
这是实现文本输入的关键组件。
- 下载 ADB Keyboard.apk(GitHub开源项目)
- 将APK文件拖入模拟器窗口,或通过浏览器在手机上下载安装
- 安装完成后,进入「设置」→「语言与输入法」→「当前输入法」→ 切换为ADB Keyboard
这样AI才能通过命令向输入框发送文字,而不是只能点击。
4. 部署控制端代码(Open-AutoGLM)
现在回到本地电脑,我们要把核心控制程序部署下来。
4.1 克隆项目仓库
打开终端,执行:
git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM4.2 安装Python依赖
项目依赖较多,包括 fastapi、pydantic、opencv-python、uiautomator2 等。
一键安装:
pip install -r requirements.txt然后以可编辑模式安装项目本身:
pip install -e .这一步的作用是让你修改代码后无需重新打包即可生效,适合开发调试。
5. 连接设备:USB or WiFi?
有两种方式让电脑控制手机:USB线缆 和 WiFi无线。
5.1 USB连接(推荐新手)
- 用数据线将手机连上电脑
- 手机弹出“允许USB调试?”对话框时,点击“允许”
- 在终端输入:
正常情况下会列出设备ID,状态为adb devicesdevice。
如果显示unauthorized,说明未授权,请重新插拔并确认授权弹窗。
5.2 WiFi远程连接(适合长期使用)
优点是不用插线,支持远程控制。
前提:手机和电脑在同一WiFi网络下。
步骤如下:
# 第一步:先用USB连接,启动ADB TCP服务 adb tcpip 5555 # 第二步:断开USB,用IP连接 adb connect 192.168.x.x:5555其中192.168.x.x是你手机的局域网IP(可在设置→WLAN中查看)。
连接成功后,再运行adb devices,应该能看到带IP地址的设备列表。
之后每次开机只需执行一次adb connect即可。
6. 启动AI代理:让它开始干活
一切准备就绪,终于到了最激动人心的时刻——让AI接管手机!
Open-AutoGLM 支持两种运行方式:命令行直接调用和Python API集成。
6.1 使用命令行快速测试
在项目根目录下运行:
python main.py \ --device-id <你的设备ID或IP:5555> \ --base-url http://<云服务器IP>:<映射端口>/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"参数说明:
| 参数 | 说明 |
|---|---|
--device-id | 通过adb devices获取的设备标识 |
--base-url | 模型服务的API地址(vLLM或BigModel) |
--model | 模型名称,官方提供autoglm-phone-9b |
| 最后的字符串 | 你要下达的自然语言指令 |
示例(使用智谱BigModel云服务):
python main.py \ --device-id emulator-5554 \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "your_actual_api_key_here" \ "打开美团,搜索附近的火锅店"记得把your_actual_api_key_here替换成你在 bigmodel.cn 注册后生成的API Key。
运行后你会看到AI开始截图、分析界面、生成操作步骤,并在手机上自动执行。
6.2 使用Python API进行高级控制
如果你想把AI助理集成到自己的应用中,可以用Python API方式调用。
from phone_agent.adb import ADBConnection, list_devices # 创建连接管理器 conn = ADBConnection() # 连接远程设备 success, message = conn.connect("192.168.1.100:5555") print(f"连接状态: {message}") # 列出所有已连接设备 devices = list_devices() for device in devices: print(f"{device.device_id} - {device.connection_type.value}") # 获取设备IP(用于WiFi连接) ip = conn.get_device_ip() print(f"设备 IP: {ip}") # 断开连接 conn.disconnect("192.168.1.100:5555")这种方式更适合做批量任务、定时自动化、企业级集成等场景。
7. 常见问题与排查建议
部署过程中可能会遇到一些问题,以下是高频故障及解决方案:
7.1 ADB连接失败
- 现象:
adb devices显示offline或无设备 - 解决方法:
- 重启ADB服务:
adb kill-server && adb start-server - 重新插拔USB线,确认授权弹窗已允许
- 检查手机是否开启了“仅充电”模式,改为“文件传输”或“MTP”模式
- 重启ADB服务:
7.2 模型无响应或乱码
- 现象:AI一直思考但不执行操作,或输出乱码
- 可能原因:
- vLLM服务未正确启动
max_model_len设置过小导致上下文截断- 显存不足导致推理失败
- 建议:
- 检查GPU显存是否足够(至少16GB用于9B模型)
- 调整启动参数中的
--max-model-len 8192 - 查看服务端日志是否有OOM错误
7.3 输入中文失败
- 现象:搜索框无法输入汉字
- 原因:ADB Keyboard未设为默认输入法
- 解决:
- 进入手机设置 → 语言与输入法 → 默认键盘 → 选择 ADB Keyboard
- 测试命令:
adb shell input text "hello"是否能在输入框显示
7.4 防火墙阻止连接
- 现象:WiFi连接时报“connection refused”
- 解决:
- 检查云服务器防火墙是否放行了对应端口(如8800)
- 本地路由器是否限制了ADB端口
- 尝试改用USB连接排除网络问题
8. 总结:你的AI助理已经上线
恭喜你!经过以上步骤,你应该已经成功部署了 Open-AutoGLM,并亲眼见证了AI如何听懂一句话,然后自己动手完成一连串复杂的手机操作。
回顾一下我们走过的路:
- 理解了 Open-AutoGLM 的核心价值:让AI不仅能说,还能做
- 准备好了 Python、ADB、手机调试环境
- 成功连接设备(USB/WiFi)
- 通过命令行或API启动AI代理,执行真实任务
- 掌握了常见问题的排查技巧
这套系统不仅适用于个人效率提升,比如自动打卡、查信息、回消息,也完全可以扩展为企业级自动化工具,比如客服机器人自动演示产品、测试团队批量验证App流程。
更重要的是,它是开源的。这意味着你可以:
- 查看每一行代码,了解AI是如何决策的
- 修改行为逻辑,定制专属工作流
- 本地部署模型,保障数据隐私
- 贡献代码,参与社区共建
未来,随着多模态模型能力不断增强,这类“能看会动”的AI助理将会越来越普及。而你现在掌握的,正是通往下一代人机交互方式的第一把钥匙。
别忘了,技术的意义从来不是取代人类,而是让我们从重复劳动中解放出来,去做更有创造力的事。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。