Open-AutoGLM入门指南:开发者必须掌握的5个核心命令
1. 技术背景与学习目标
Open-AutoGLM 是由智谱开源的一款面向手机端的 AI Agent 框架,基于视觉语言模型(VLM)实现多模态理解与自动化操作。其核心项目 AutoGLM-Phone 和 Phone Agent 能够通过 ADB(Android Debug Bridge)控制安卓设备,结合自然语言指令完成复杂任务,如“打开小红书搜索美食”或“关注指定抖音账号”。系统不仅能感知屏幕内容、解析用户意图,还能自动规划执行路径,并在敏感操作时支持人工确认,兼顾智能性与安全性。
本教程将聚焦于Open-AutoGLM 的本地控制端部署与核心使用方式,帮助开发者快速掌握五个关键命令和操作流程,涵盖环境配置、设备连接、AI 代理启动及远程调试等实用技能。无论你是想构建自动化测试工具,还是开发个人智能助理应用,本文提供的实践路径均可直接落地。
2. 环境准备与依赖安装
2.1 硬件与软件要求
为确保 Open-AutoGLM 正常运行,请提前准备以下软硬件环境:
- 操作系统:Windows 或 macOS
- Python 版本:建议 Python 3.10+
- 安卓设备:Android 7.0 及以上版本的真实手机或模拟器
- ADB 工具:用于设备通信的核心组件
2.2 安装并配置 ADB
ADB 是 Android SDK 的一部分,负责电脑与安卓设备之间的桥接通信。
Windows 配置步骤:
- 下载 Android SDK Platform Tools 并解压。
- 按
Win + R输入sysdm.cpl打开系统属性。 - 进入“高级” → “环境变量”,在“系统变量”中的
Path添加 ADB 解压目录路径。 - 打开命令行输入
adb version,若显示版本信息则表示配置成功。
macOS 配置方法:
在终端中执行以下命令(假设 platform-tools 解压至 Downloads 目录):
export PATH=${PATH}:~/Downloads/platform-tools可将该行加入.zshrc或.bash_profile实现永久生效。
验证命令:
adb version3. 手机端设置与输入法配置
3.1 开启开发者选项与 USB 调试
- 进入手机“设置” → “关于手机” → 连续点击“版本号”7次以启用开发者模式。
- 返回设置主界面,进入“开发者选项” → 启用“USB 调试”。
注意:部分厂商(如小米、华为)可能还需开启“OEM 解锁”或“USB 安装”权限。
3.2 安装 ADB Keyboard 输入法
由于自动化过程中无法依赖物理键盘输入,需安装专用虚拟输入法:
- 下载 ADB Keyboard APK 并安装到手机。
- 在“设置” → “语言与输入法” → “默认键盘”中切换为ADB Keyboard。
此输入法允许通过 ADB 命令发送文本,是实现全自动交互的关键环节。
4. 部署 Open-AutoGLM 控制端代码
4.1 克隆仓库并安装依赖
在本地电脑上执行以下命令获取 Open-AutoGLM 控制端代码:
git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM安装所需 Python 依赖包:
pip install -r requirements.txt pip install -e .
-e .表示以可编辑模式安装,便于后续修改源码调试。
4.2 检查项目结构
典型目录结构如下:
Open-AutoGLM/ ├── main.py # 主入口脚本 ├── phone_agent/ # 核心模块 │ ├── adb.py # ADB 封装接口 │ └── agent.py # AI 决策逻辑 └── requirements.txt # 依赖声明5. 设备连接:USB 与 WiFi 两种方式
5.1 使用 USB 连接设备
最稳定的方式是通过数据线连接手机与电脑。
- 使用 USB 数据线连接手机。
- 在手机弹出的“允许 USB 调试?”提示中点击“允许”。
- 执行命令查看设备状态:
adb devices预期输出示例:
List of devices attached ABCDEF123456 device只有状态为device才表示连接正常。
5.2 使用 WiFi 进行远程连接(ADB over TCP/IP)
适用于无线调试或远程控制场景。
第一步:通过 USB 启动 TCP/IP 模式
adb tcpip 5555此命令让设备监听 5555 端口的 ADB 连接请求。
第二步:断开 USB,使用 IP 地址连接
确保手机与电脑处于同一局域网,获取手机 IP 地址(可在“设置”→“WLAN”中查看),然后执行:
adb connect 192.168.x.x:5555再次运行adb devices应能看到设备以 IP 形式列出。
提示:可通过
adb disconnect <IP>:5555断开远程连接。
6. 启动 AI 代理:五大核心命令详解
以下是开发者必须掌握的五个核心命令及其用途说明。
6.1 命令一:adb devices—— 查看已连接设备
作用:列出所有通过 ADB 连接的安卓设备。
adb devices输出格式:
List of devices attached emulator-5554 offline ABCDEF123456 devicedevice:连接正常offline:设备未响应unauthorized:未授权调试
应用场景:每次启动前检查设备是否在线,避免因连接失败导致任务中断。
6.2 命令二:adb tcpip <port>—— 开启无线调试模式
作用:将设备从 USB 模式切换为 TCP/IP 模式,支持网络连接。
adb tcpip 5555注意事项: - 必须先通过 USB 连接才能执行此命令。 - 若提示“restarting in TCP mode port: 5555”,表示切换成功。
6.3 命令三:adb connect <ip>:<port>—— 远程连接设备
作用:通过局域网 IP 地址连接安卓设备。
adb connect 192.168.1.100:5555成功后返回:
connected to 192.168.1.100:5555优势:摆脱数据线束缚,适合长时间运行或远程部署。
6.4 命令四:python main.py—— 启动 AI 自动化代理
这是整个框架的核心执行命令,用于触发 AI Agent 执行自然语言指令。
python main.py \ --device-id ABCDEF123456 \ --base-url http://192.168.1.200:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"参数说明:
| 参数 | 说明 |
|---|---|
--device-id | 设备 ID,来自adb devices输出 |
--base-url | vLLM 或其他推理服务的公网地址和端口 |
--model | 指定使用的模型名称 |
| 最后字符串 | 用户输入的自然语言指令 |
工作流程: 1. AI 接收指令并解析语义; 2. 通过 ADB 截图获取当前屏幕图像; 3. 视觉语言模型识别 UI 元素; 4. 规划操作序列(点击、滑动、输入等); 5. 调用 ADB 执行动作,循环直至任务完成。
6.5 命令五:Python API 调用 ADBConnection 类 —— 编程式设备管理
对于需要集成进项目的开发者,推荐使用内置的 Python API 进行更灵活的控制。
from phone_agent.adb import ADBConnection, list_devices # 创建连接管理器 conn = ADBConnection() # 连接远程设备 success, message = conn.connect("192.168.1.100:5555") print(f"连接状态: {message}") # 列出所有已连接设备 devices = list_devices() for device in devices: print(f"{device.device_id} - {device.connection_type.value}") # 获取设备 IP 地址(需已连接) ip = conn.get_device_ip() print(f"设备 IP: {ip}") # 断开指定设备 conn.disconnect("192.168.1.100:5555")适用场景:自动化测试平台、远程运维系统、批量设备管理等。
7. 常见问题排查与优化建议
7.1 连接类问题
| 问题现象 | 可能原因 | 解决方案 |
|---|---|---|
unauthorized | 未授权调试 | 在手机上确认 ADB 授权弹窗 |
connection refused | 防火墙阻止 | 检查云服务器安全组是否开放对应端口 |
device offline | ADB 异常 | 重启 ADB 服务:adb kill-server && adb start-server |
7.2 模型与推理问题
- 模型无响应或乱码:
- 检查
--base-url是否正确指向运行中的 vLLM 服务。 - 确认模型加载参数一致,尤其是
max-model-len和显存分配。 查看服务端日志是否有 OOM(内存溢出)错误。
操作失败但无报错:
- 检查 ADB Keyboard 是否设为默认输入法。
- 确保屏幕未锁屏或进入休眠状态。
7.3 性能优化建议
- 优先使用 USB 连接:比 WiFi 更稳定,延迟更低。
- 定期清理缓存截图:避免磁盘占用过高影响性能。
- 限制并发任务数:单台设备建议只运行一个 AI Agent 实例。
- 合理设置超时时间:防止卡死在某一步骤。
8. 总结
本文系统介绍了 Open-AutoGLM 框架的入门部署流程与五大核心命令,覆盖了从环境搭建、设备连接到 AI 代理启动的完整链路。作为一款基于视觉语言模型的手机端智能体框架,Open-AutoGLM 展现出强大的多模态理解与自动化执行能力,尤其适合用于自动化测试、辅助操作、远程控制等场景。
通过掌握以下五个关键命令,开发者可以快速构建自己的手机 AI 助理:
adb devices:设备状态监控adb tcpip 5555:开启无线调试adb connect <ip>:5555:远程连接设备python main.py ...:启动 AI 自动化任务- 使用
ADBConnectionAPI:编程式设备控制
这些命令不仅是日常开发的基础工具,更是实现高阶自动化系统的基石。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。