Open-AutoGLM出行服务整合:打车预订自动执行部署实战
你有没有想过,以后打车不用再手动点开App、输入起点终点、反复确认价格和车型?只要说一句“帮我叫辆网约车去机场,要能放得下两个大行李箱”,手机就自动完成全部操作——打开打车软件、填写地址、选择车型、确认下单,甚至还能在司机接单后把预估到达时间发到你的微信里。这不是科幻场景,而是Open-AutoGLM正在真实落地的能力。
本文不讲抽象概念,不堆技术参数,就带你从零开始,在本地电脑上连真机、跑通流程、亲手让AI替你完成一次完整的打车预订任务。整个过程不需要写一行模型代码,也不用训练任何模型,只需要配置好环境、连上手机、下达自然语言指令,剩下的交给AutoGLM-Phone自动完成。全程可复现、可调试、可扩展,适合想快速验证AI Agent实际能力的开发者、产品经理或效率爱好者。
1. 什么是Open-AutoGLM:一个真正能“动手”的手机AI助理
Open-AutoGLM是智谱开源的一套面向移动端的AI Agent框架,核心目标很实在:让大模型不只是“会说”,更要“会做”。它不是另一个聊天机器人,而是一个能看懂你手机屏幕、理解当前界面、规划操作路径、并真实点击滑动执行任务的智能体。
它的底层能力由三块拼图组成:
- 视觉理解层:用多模态视觉语言模型(VLM)实时分析手机截屏,识别按钮、输入框、列表项、状态栏文字等UI元素,就像人一眼扫过去就知道“这个蓝色按钮是‘确认下单’”;
- 意图解析与规划层:把你的自然语言指令(比如“叫个快车去首都机场T3,选舒适型,备注要后排儿童安全座椅”)拆解成可执行动作序列:先打开哪个App → 点击哪个图标 → 在哪个输入框填什么 → 滑动到哪一项 → 点击哪个确认按钮;
- 自动化执行层:通过ADB(Android Debug Bridge)向手机发送底层指令,实现真实点击、滑动、输入、返回等操作,所有动作都发生在真实设备上,不是模拟,不是截图,是真正在用你的手机办事。
特别值得一提的是,它不是“黑盒全自动”。系统内置了敏感操作确认机制——当检测到支付、删除联系人、修改系统设置等高风险动作时,会主动暂停并弹出提示,等待你人工确认;遇到登录页、图形验证码等需要人类视觉判断的环节,也支持无缝切换为人工接管模式。这种“人在环路”的设计,让它既强大又可控,真正具备工程落地的安全边界。
2. 出行服务整合实战:从一句话指令到打车成功
我们以“为用户自动完成一次滴滴/高德打车预订”为具体目标,完整走一遍端到端流程。这不是Demo演示,而是你明天就能照着做的真实部署方案。
2.1 场景拆解:AI需要完成哪些动作?
一条看似简单的指令“帮我叫辆网约车去机场”,背后是一连串精细的界面交互:
- 启动App:找到并点击手机桌面上的打车App图标(如滴滴、高德、T3出行);
- 定位与输入:等待App加载完成,识别“出发地”输入框,点击并输入当前定位(或调用定位权限);
- 填写目的地:识别“目的地”输入框,点击并输入“北京首都国际机场T3航站楼”;
- 选择车型与服务:滑动车型列表,找到并点击“舒适型”或“商务型”选项;勾选“需要儿童安全座椅”复选框;
- 确认下单:识别页面底部的绿色“呼叫车辆”或“立即用车”按钮,点击执行;
- 结果反馈(可选):截取订单成功页面,提取车牌号、预估到达时间,通过微信或短信发送给用户。
Open-AutoGLM的强项,就在于它能把这6步全部自动规划出来,并在真实手机上一步步执行到位,中间不卡顿、不误点、不跳错页面。
2.2 环境准备:三步搞定本地控制端
整个控制端运行在你的本地电脑(Windows/macOS)上,它负责接收你的指令、调用云端模型、再把生成的操作指令发给手机。准备工作非常轻量:
2.2.1 基础工具安装
- Python 3.10+:推荐使用pyenv或Miniconda管理环境,避免污染系统Python;
- ADB工具:
- Windows:下载platform-tools,解压后将
adb.exe所在目录加入系统PATH(右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建); - macOS:终端执行
brew install android-platform-tools,或手动下载后添加路径:echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc && source ~/.zshrc
- Windows:下载platform-tools,解压后将
- 验证安装:终端输入
adb version,看到类似Android Debug Bridge version 1.0.41即成功。
2.2.2 手机端设置(关键!)
这是最容易出问题的环节,务必逐条确认:
- 开启开发者模式:手机“设置”→“关于手机”→连续点击“版本号”7次,直到弹出“您已处于开发者模式”;
- 启用USB调试:“设置”→“系统与更新”→“开发者选项”→打开“USB调试”;
- 安装ADB Keyboard(必须!):
- 下载 ADB Keyboard APK(v1.1或更新);
- 安装后,进入“设置”→“语言与输入法”→“当前输入法”→切换为“ADB Keyboard”;
为什么需要它?因为AutoGLM需要向输入框发送文字,而标准ADB的input text命令在部分安卓版本上无法触发输入法,ADB Keyboard是专为此场景优化的解决方案。
小贴士:首次连接时,手机会弹出“允许USB调试吗?”提示,请勾选“始终允许”,避免每次重启都需确认。
3. 部署与连接:让AI看见你的手机屏幕
3.1 获取控制端代码
在本地终端执行:
git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt pip install -e .注意:requirements.txt中已包含adbutils、Pillow、requests等核心依赖,无需额外安装。
3.2 连接你的安卓设备
确保手机通过USB线连接电脑,或与电脑处于同一WiFi网络。
USB直连(推荐新手):
终端输入adb devices,若看到类似ZY2252NQF8 device的输出,说明连接成功。WiFi无线连接(适合远程调试):
先用USB线连接,执行:adb tcpip 5555断开USB线,连接手机WiFi,获取手机IP(设置→关于手机→状态信息→IP地址),然后:
adb connect 192.168.1.100:5555 # 替换为你的手机IP
常见问题:如果
adb devices显示unauthorized,请检查手机是否弹出授权窗口;若显示为空,尝试重启ADB服务:adb kill-server && adb start-server。
3.3 启动AI代理:下达你的第一条出行指令
假设你已有一台云服务器(或本地GPU机器)部署好了autoglm-phone-9b模型服务(通过vLLM或Ollama提供HTTP API),其公网地址为http://123.56.78.90:8800/v1。
在Open-AutoGLM项目根目录下,执行:
python main.py \ --device-id ZY2252NQF8 \ --base-url http://123.56.78.90:8800/v1 \ --model "autoglm-phone-9b" \ "打开高德地图,叫一辆网约车去北京首都国际机场T3航站楼,车型选舒适型,备注司机请准备儿童安全座椅。"--device-id:从adb devices命令中复制的设备ID;--base-url:替换为你实际的模型服务地址;- 最后字符串:就是你自然语言指令,越具体,成功率越高。
你会看到终端实时打印日志:[INFO] 截获屏幕截图...[INFO] VLM分析中:检测到高德地图首页,顶部有搜索框,下方有‘打车’Tab...[INFO] 规划动作:点击‘打车’Tab → 点击出发地输入框 → 输入‘我的位置’ → 点击目的地输入框 → 输入‘北京首都国际机场T3航站楼’...[INFO] 执行动作:点击坐标(520, 1200)...
几秒后,你的手机屏幕上就会真实发生一系列操作——App自动打开、地址自动填写、车型自动选择、订单自动提交。整个过程无需你触碰手机。
4. 进阶技巧:让出行服务更可靠、更智能
4.1 处理复杂交互:登录与验证码场景
真实打车场景中,用户可能未登录App,或需要输入短信验证码。Open-AutoGLM对此有成熟应对:
自动检测登录态:当VLM识别到“登录”、“手机号”、“验证码”等UI元素时,会主动暂停执行,终端输出:
[PAUSE] 检测到登录页面,请手动完成登录或输入验证码。按回车继续...
此时你只需在手机上完成登录,再按回车,AI将继续后续流程。人工接管API:你也可以在代码中主动调用接管接口:
from phone_agent.agent import PhoneAgent agent = PhoneAgent(device_id="ZY2252NQF8", base_url="http://123.56.78.90:8800/v1") # 当检测到验证码时,跳转人工模式 agent.enter_manual_mode() print("请在手机上输入验证码,完成后按回车...") input() # 等待用户确认 agent.resume_auto()
4.2 提升成功率:指令编写与调试建议
指令要具体,避免模糊:
❌ “帮我叫个车” → “打开滴滴出行App,起点设为‘北京市海淀区中关村大街27号’,终点设为‘北京首都国际机场T3’,车型选‘专车’,备注‘司机您好,我带一个3岁孩子,请准备安全座椅’”。善用上下文记忆:
同一session内,AI会记住你之前的指令。例如先执行“打开微信,给张三发消息说我在路上了”,再执行“接着发一张截图”,它会自动识别微信当前聊天窗口并发送截图。调试技巧:
添加--debug参数可保存每一步的截图和VLM分析日志:python main.py --debug --device-id ZY2252NQF8 ... "指令"日志会生成在
./debug/目录下,方便你复盘哪一步识别失败、如何优化指令。
5. 总结:AI Agent不是未来,而是今天就能用的生产力工具
我们刚刚完成的,不是一个PPT里的概念演示,而是一次真实的、可重复的、端到端的出行服务自动化实践。从配置ADB、安装输入法、连接设备,到输入一行自然语言、看着手机自动完成打车全流程——整个过程没有一行模型训练代码,没有复杂的API对接,只有清晰的步骤和可验证的结果。
Open-AutoGLM的价值,正在于它把AI Agent从“能说会道”的阶段,推进到了“能看会做”的实用层级。它不追求通用人工智能,而是聚焦在“手机这个最常用设备”上,解决“打开App→填信息→点按钮”这一类高频、机械、但又不可或缺的数字劳动。
对开发者而言,它是快速验证AI Agent能力的极佳沙盒;对产品经理而言,它是重构移动服务交互范式的原型平台;对普通用户而言,它预示着一种新的生活方式——你的手机,正从“工具”变成“助理”。
下一步,你可以尝试让它帮你订外卖、查快递、比价购物,甚至自动化处理工作邮件。真正的智能,不在于它多像人,而在于它多懂你。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。