news 2026/4/3 2:45:31

手把手教你部署Open-AutoGLM,轻松打造会干活的AI助理

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
手把手教你部署Open-AutoGLM,轻松打造会干活的AI助理

手把手教你部署Open-AutoGLM,轻松打造会干活的AI助理

你有没有想过,有一天只要说一句“帮我点个外卖”,手机就能自动打开App、选餐厅、下单支付,全程不需要你动手?这听起来像科幻片的场景,现在通过Open-AutoGLM已经可以实现了。

这是一个由智谱AI开源的手机端AI Agent框架,名字叫AutoGLM-Phone。它不只是会聊天的AI,而是一个真正能“动手做事”的智能助理。你只需要用自然语言下指令,比如“打开小红书搜美食”、“给老板发条微信说我在路上了”,它就能看懂屏幕、理解界面、自动点击滑动,把整套操作完成。

更厉害的是——它是开源的,你可以自己部署,完全掌控数据安全,还能根据需求定制功能。本文就是一份从零开始的实战部署指南,哪怕你是第一次接触ADB、AI模型或者自动化工具,也能一步步跟着操作,亲手让AI接管你的手机。

准备好了吗?我们这就开始。

1. Open-AutoGLM 是什么?它为什么特别?

在讲怎么用之前,先搞清楚:这到底是个什么东西?

简单来说,Open-AutoGLM 是一个基于视觉语言模型(VLM)的手机自动化智能体(Agent)框架。它的核心能力有三个:

  • 看得懂屏幕:通过截图+多模态模型分析,理解当前手机界面有哪些按钮、文字、输入框。
  • 听得懂人话:接收你的自然语言指令,比如“查一下明天北京到上海的高铁票”。
  • 做得了事情:结合 ADB(Android Debug Bridge),自动执行点击、滑动、输入等操作,真正“动手”。

和传统意义上的“脚本自动化”不同,Open-AutoGLM 不需要你提前写死每一步操作。它具备自主规划能力,能根据当前界面动态决定下一步该做什么,就像一个真人用户在操作手机。

举个例子:

指令:“打开抖音,搜索ID为 dycwo11nt61d 的博主并关注他。”

AI会这样思考和行动:

  1. 当前是不是在桌面?不是就先返回桌面。
  2. 找“抖音”图标,点击进入。
  3. 进入后找搜索框,点击并调用ADB键盘输入账号名。
  4. 点击搜索结果中的目标用户。
  5. 判断是否已关注,如果没有,点击“关注”按钮。

整个过程无需人工干预,也不依赖固定坐标或控件ID,靠的是对界面语义的理解。

而且系统还内置了敏感操作确认机制,比如涉及支付、删除等动作时,会暂停并提示你确认,避免误操作。同时支持验证码、登录弹窗等人机交互场景下的“人工接管”,非常贴心。

一句话总结:

它让大模型真正接入了移动设备的操作层,实现了“语言即指令,AI即助手”的闭环体验。


2. 部署前的准备工作

要让这个AI助理跑起来,我们需要准备三样东西:

  1. 一台安卓设备(真机或模拟器)
  2. 本地电脑环境(运行控制端代码)
  3. 一个可用的AutoGLM模型服务(云端或本地)

下面我们逐一配置。

2.1 硬件与系统要求

项目要求
操作系统Windows / macOS(推荐)
Python 版本3.10 或更高版本
安卓设备Android 7.0+ 或 HarmonyOS 设备
ADB 工具必须安装并配置好环境变量
网络连接手机与电脑在同一局域网(WiFi方式)或USB直连

建议优先使用Windows + 真机macOS + Android Studio 模拟器组合,稳定性最好。

2.2 安装Python环境

如果你还没装Python,请去官网下载 python.org 最新版(3.10~3.12均可)。

安装时务必勾选“Add Python to PATH”,否则后续命令行无法识别python命令。

验证是否安装成功:

python --version

输出类似Python 3.12.7即表示正常。

2.3 下载并配置ADB工具

ADB(Android Debug Bridge)是连接和控制安卓设备的核心工具。

下载地址:

前往 Android开发者官网 下载 platform-tools 包。

解压后得到adb.exe(Windows)或可执行文件(macOS/Linux)。

配置环境变量:

Windows:

  1. 右键“此电脑” → 属性 → 高级系统设置 → 环境变量
  2. 在“系统变量”中找到Path,点击编辑 → 新建
  3. 添加你解压后的 platform-tools 文件夹路径(如C:\tools\platform-tools
  4. 保存后打开新终端,输入:
    adb version
    如果显示版本号,说明配置成功。

macOS:在终端中执行:

export PATH=${PATH}:~/Downloads/platform-tools

(假设你解压到了 Downloads 目录)

为了永久生效,可以把这行加到.zshrc.bash_profile中。


3. 手机端设置:开启调试权限

无论用真机还是模拟器,都必须开启开发者选项和USB调试。

3.1 开启开发者模式

进入手机「设置」→「关于手机」→ 连续点击“版本号”7次以上,直到提示“您已进入开发者模式”。

3.2 启用USB调试

返回设置主菜单 →「开发者选项」→ 打开「USB调试」开关。

部分手机还需要开启「USB安装」、「USB调试(安全设置)」等选项,请根据提示操作。

3.3 安装ADB Keyboard(关键!)

这是实现文本输入的关键组件。

  1. 下载 ADB Keyboard.apk(GitHub开源项目)
  2. 将APK文件拖入模拟器窗口,或通过浏览器在手机上下载安装
  3. 安装完成后,进入「设置」→「语言与输入法」→「当前输入法」→ 切换为ADB Keyboard

这样AI才能通过命令向输入框发送文字,而不是只能点击。


4. 部署控制端代码(Open-AutoGLM)

现在回到本地电脑,我们要把核心控制程序部署下来。

4.1 克隆项目仓库

打开终端,执行:

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM

4.2 安装Python依赖

项目依赖较多,包括 fastapi、pydantic、opencv-python、uiautomator2 等。

一键安装:

pip install -r requirements.txt

然后以可编辑模式安装项目本身:

pip install -e .

这一步的作用是让你修改代码后无需重新打包即可生效,适合开发调试。


5. 连接设备:USB or WiFi?

有两种方式让电脑控制手机:USB线缆 和 WiFi无线。

5.1 USB连接(推荐新手)

  1. 用数据线将手机连上电脑
  2. 手机弹出“允许USB调试?”对话框时,点击“允许”
  3. 在终端输入:
    adb devices
    正常情况下会列出设备ID,状态为device

如果显示unauthorized,说明未授权,请重新插拔并确认授权弹窗。

5.2 WiFi远程连接(适合长期使用)

优点是不用插线,支持远程控制。

前提:手机和电脑在同一WiFi网络下。

步骤如下:

# 第一步:先用USB连接,启动ADB TCP服务 adb tcpip 5555 # 第二步:断开USB,用IP连接 adb connect 192.168.x.x:5555

其中192.168.x.x是你手机的局域网IP(可在设置→WLAN中查看)。

连接成功后,再运行adb devices,应该能看到带IP地址的设备列表。

之后每次开机只需执行一次adb connect即可。


6. 启动AI代理:让它开始干活

一切准备就绪,终于到了最激动人心的时刻——让AI接管手机!

Open-AutoGLM 支持两种运行方式:命令行直接调用Python API集成

6.1 使用命令行快速测试

在项目根目录下运行:

python main.py \ --device-id <你的设备ID或IP:5555> \ --base-url http://<云服务器IP>:<映射端口>/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

参数说明:

参数说明
--device-id通过adb devices获取的设备标识
--base-url模型服务的API地址(vLLM或BigModel)
--model模型名称,官方提供autoglm-phone-9b
最后的字符串你要下达的自然语言指令
示例(使用智谱BigModel云服务):
python main.py \ --device-id emulator-5554 \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "your_actual_api_key_here" \ "打开美团,搜索附近的火锅店"

记得把your_actual_api_key_here替换成你在 bigmodel.cn 注册后生成的API Key。

运行后你会看到AI开始截图、分析界面、生成操作步骤,并在手机上自动执行。

6.2 使用Python API进行高级控制

如果你想把AI助理集成到自己的应用中,可以用Python API方式调用。

from phone_agent.adb import ADBConnection, list_devices # 创建连接管理器 conn = ADBConnection() # 连接远程设备 success, message = conn.connect("192.168.1.100:5555") print(f"连接状态: {message}") # 列出所有已连接设备 devices = list_devices() for device in devices: print(f"{device.device_id} - {device.connection_type.value}") # 获取设备IP(用于WiFi连接) ip = conn.get_device_ip() print(f"设备 IP: {ip}") # 断开连接 conn.disconnect("192.168.1.100:5555")

这种方式更适合做批量任务、定时自动化、企业级集成等场景。


7. 常见问题与排查建议

部署过程中可能会遇到一些问题,以下是高频故障及解决方案:

7.1 ADB连接失败

  • 现象adb devices显示offline或无设备
  • 解决方法
    • 重启ADB服务:adb kill-server && adb start-server
    • 重新插拔USB线,确认授权弹窗已允许
    • 检查手机是否开启了“仅充电”模式,改为“文件传输”或“MTP”模式

7.2 模型无响应或乱码

  • 现象:AI一直思考但不执行操作,或输出乱码
  • 可能原因
    • vLLM服务未正确启动
    • max_model_len设置过小导致上下文截断
    • 显存不足导致推理失败
  • 建议
    • 检查GPU显存是否足够(至少16GB用于9B模型)
    • 调整启动参数中的--max-model-len 8192
    • 查看服务端日志是否有OOM错误

7.3 输入中文失败

  • 现象:搜索框无法输入汉字
  • 原因:ADB Keyboard未设为默认输入法
  • 解决
    • 进入手机设置 → 语言与输入法 → 默认键盘 → 选择 ADB Keyboard
    • 测试命令:adb shell input text "hello"是否能在输入框显示

7.4 防火墙阻止连接

  • 现象:WiFi连接时报“connection refused”
  • 解决
    • 检查云服务器防火墙是否放行了对应端口(如8800)
    • 本地路由器是否限制了ADB端口
    • 尝试改用USB连接排除网络问题

8. 总结:你的AI助理已经上线

恭喜你!经过以上步骤,你应该已经成功部署了 Open-AutoGLM,并亲眼见证了AI如何听懂一句话,然后自己动手完成一连串复杂的手机操作。

回顾一下我们走过的路:

  1. 理解了 Open-AutoGLM 的核心价值:让AI不仅能说,还能做
  2. 准备好了 Python、ADB、手机调试环境
  3. 成功连接设备(USB/WiFi)
  4. 通过命令行或API启动AI代理,执行真实任务
  5. 掌握了常见问题的排查技巧

这套系统不仅适用于个人效率提升,比如自动打卡、查信息、回消息,也完全可以扩展为企业级自动化工具,比如客服机器人自动演示产品、测试团队批量验证App流程。

更重要的是,它是开源的。这意味着你可以:

  • 查看每一行代码,了解AI是如何决策的
  • 修改行为逻辑,定制专属工作流
  • 本地部署模型,保障数据隐私
  • 贡献代码,参与社区共建

未来,随着多模态模型能力不断增强,这类“能看会动”的AI助理将会越来越普及。而你现在掌握的,正是通往下一代人机交互方式的第一把钥匙。

别忘了,技术的意义从来不是取代人类,而是让我们从重复劳动中解放出来,去做更有创造力的事。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/27 7:46:05

Qwen3Guard-Gen-WEB上线即用:镜像免配置环境部署教程

Qwen3Guard-Gen-WEB上线即用&#xff1a;镜像免配置环境部署教程 你是否正在寻找一个开箱即用、无需繁琐配置的安全审核模型&#xff1f; 你是否希望快速接入一个支持多语言、具备高精度风险识别能力的AI内容过滤系统&#xff1f; 现在&#xff0c;这一切都可以通过 Qwen3Gua…

作者头像 李华
网站建设 2026/4/1 21:47:48

Live Avatar使用秘籍:高质量输入素材准备指南

Live Avatar使用秘籍&#xff1a;高质量输入素材准备指南 1. 引言&#xff1a;开启数字人创作新时代 你是否想过&#xff0c;只需一张照片和一段音频&#xff0c;就能让虚拟人物栩栩如生地开口说话、表达情感&#xff1f;阿里联合高校开源的 Live Avatar 模型正让这一愿景成为…

作者头像 李华
网站建设 2026/4/2 11:25:08

【高效DevOps必备】:构建超轻量Docker镜像的10个最佳实践

第一章&#xff1a;超轻量Docker镜像的核心价值在现代云原生架构中&#xff0c;Docker镜像的体积直接影响应用的部署效率、资源消耗和安全性。构建超轻量镜像不仅能加快CI/CD流程中的构建与推送速度&#xff0c;还能显著降低运行时的内存占用和攻击面。提升部署效率 大型镜像在…

作者头像 李华
网站建设 2026/3/12 17:09:51

从0开始学数字人:Live Avatar镜像轻松实现语音驱动

从0开始学数字人&#xff1a;Live Avatar镜像轻松实现语音驱动 你是否想过&#xff0c;只需一张照片和一段音频&#xff0c;就能让静态人物“活”起来&#xff0c;开口说话、表情自然、口型同步&#xff1f;这不再是电影特效的专属&#xff0c;随着AI技术的发展&#xff0c;普…

作者头像 李华
网站建设 2026/3/27 4:26:45

麦橘超然Flux图像生成器,真正意义上的开箱即用

麦橘超然Flux图像生成器&#xff0c;真正意义上的开箱即用 你是不是也经历过这样的时刻&#xff1a;好不容易找到一个看起来很厉害的AI绘画模型&#xff0c;兴致勃勃地准备试一试&#xff0c;结果光是环境配置就卡了三天&#xff1f;依赖冲突、显存爆满、模型下载失败……还没…

作者头像 李华
网站建设 2026/4/2 14:09:03

Z-Image-Turbo支持API调用,二次开发超方便

Z-Image-Turbo支持API调用&#xff0c;二次开发超方便 你有没有遇到过这样的情况&#xff1a;好不容易找到一个生成速度快、画质还不错的AI绘画模型&#xff0c;结果一上手发现部署复杂、接口不开放&#xff0c;想做个自动化流程都得从头写服务&#xff1f;更别提中文提示词支…

作者头像 李华