Open-AutoGLM真机体验：输入法设置很关键！-智慧文博士

Open-AutoGLM真机体验：输入法设置很关键！

你有没有试过对手机说一句“帮我打开小红书搜美食”，然后它就真的自己点开App、输关键词、点搜索？不是语音助手那种简单唤醒，而是像真人一样看界面、找按钮、填文字、等加载、滑页面——整个过程全自动。这不是科幻，是Open-AutoGLM正在做的事。

但第一次上手时，我卡在了第3步：手机屏幕明明亮着，AI也识别出了“搜索框”坐标，可一到“输入文字”这步，手机键盘就是不弹，指令直接卡死。折腾半小时后才发现——问题不在模型，不在代码，而在手机设置里那个被忽略的输入法选项。

这篇文章不讲大道理，不堆参数，只说我在真机上跑通Open-AutoGLM全过程的真实踩坑记录：从连不上设备，到文字输不进去，再到操作突然中断……每一个卡点我都试过、录过、截图过。尤其重点讲清楚：为什么ADB Keyboard必须设为默认输入法？不设会怎样？设了又要注意什么？这些细节，文档里一笔带过，但实操中决定成败。

1. 真机连接前，先搞懂它到底要干什么

Open-AutoGLM不是普通AI应用，它是个“看得见、想得清、动得了”的手机端Agent。它的核心能力分三层，缺一不可：

看得见：每一步操作前，它都要通过ADB截一张当前屏幕图，再解析UI结构XML（类似网页的DOM树），把按钮位置、文字内容、层级关系全抓下来；
想得清：把截图+XML+你的自然语言指令一起喂给AutoGLM-Phone-9B模型，让它推理出“现在该点哪、输什么、等多久”；
动得了：生成JSON动作指令（比如{"action": "Type", "text": "咖啡"}），再用ADB命令真正执行——点坐标、滑屏幕、按返回键。

所以它不像ChatGPT只输出文字，而像一个远程操控的“数字手指”。而这个手指要敲字，就必须让系统听它的——这就引出了最关键的环节：输入法接管权。

2. 手机端设置：三步走，漏一步就输不了字

很多教程把“安装ADB Keyboard”写成一句话带过，但实际中，90%的输入失败都源于这一步没做对。我用的是小米13（Android 14），其他品牌逻辑一致，只是路径略有不同。

2.1 开启开发者模式与USB调试（基础但易错）

设置 → 关于手机 → 连续点击“版本号”7次 → 输入锁屏密码 → 提示“您已处于开发者模式”
设置 → 更多设置 → 开发者选项 → 打开“USB调试”和“USB调试（安全设置）”（注意：后者常被忽略！）
避坑提示：部分华为/荣耀机型还需额外开启“仅充电模式下允许ADB调试”，否则电脑能识别设备，但无法发送指令。

2.2 安装ADB Keyboard：别只装APK，要验证权限

下载官方ADB Keyboard APK（GitHub仓库releases页有提供）
安装后，不要急着点“启用”，先进入：设置 → 应用 → ADB Keyboard → 权限 → 允许“显示在其他应用上方”和“无障碍服务”
关键验证：打开任意输入框（如微信聊天框），长按输入框 → 点“更多” → “输入法” → 查看列表中是否有“ADB Keyboard”。没有？说明安装未生效，重装或换签名版本。

2.3 切换默认输入法：这才是输字成功的决定性操作

这是最常被跳过的致命步骤。ADB Keyboard装完≠能用，必须把它设为当前默认输入法：

设置 → 语言与输入法 → 虚拟键盘 → 当前键盘 → 选择“ADB Keyboard”
重要补充：部分安卓12+系统（如三星One UI）需额外进入：设置 → 辅助功能 → 无障碍 → 找到“ADB Keyboard”并开启
验证是否成功：回到桌面，长按任意空白处 → 粘贴一段文字 → 如果弹出的是ADB Keyboard的灰色简约键盘，说明成功；如果还是你常用的搜狗/百度键盘，那所有Type指令都会静默失败。

为什么非得是默认输入法？
因为ADB的input text命令本质是向系统当前焦点输入法进程发送字符流。如果焦点在搜狗键盘上，ADB发的字就进了搜狗的输入缓冲区，但搜狗不响应——它只认用户真实按键。而ADB Keyboard是专为ADB设计的“哑巴键盘”，收到指令立刻上屏，不加任何修饰。

3. 本地控制端部署：从克隆到第一句指令

环境：MacBook Pro M2（16GB内存），Python 3.10，Android手机通过USB直连。

3.1 快速拉取与依赖安装

# 克隆仓库（注意：不是zai-org/Open-AutoGLM，而是其镜像分支，避免权限问题） git clone https://github.com/zhaoxu123/Open-AutoGLM.git cd Open-AutoGLM # 创建虚拟环境（推荐，避免包冲突） python -m venv venv source venv/bin/activate # Mac/Linux # venv\Scripts\activate # Windows # 安装核心依赖（跳过torch，MLX环境用mlx-vlm） pip install -r requirements.txt pip install mlx "git+https://github.com/Blaizzy/mlx-vlm.git@main" pip install -e .

3.2 设备连接确认：三行命令定生死

在终端执行以下三行，每行都必须返回预期结果：

# 1. 检查ADB是否就位 adb version # 预期输出：Android Debug Bridge version 1.0.41 # 2. 检查手机是否被识别（USB线需插稳，且手机已授权调试） adb devices # 预期输出：List of devices attached \n XXXXXXXX device # 3. 检查ADB Keyboard是否激活（关键！） adb shell ime list -s # 预期输出中必须包含：com.android.adbkeyboard/.AdbIME # 如果没有，说明输入法未启用，回退到2.3节重设

3.3 启动代理：一条命令，见证奇迹

# 本地MLX模式运行（无需GPU，适合尝鲜） python main.py --local --model ./models/autoglm-9b-4bit "打开高德地图，搜索最近的咖啡馆" # 或指定设备ID（当多设备连接时） python main.py --local --device-id AERFUT4B08000806 --model ./models/autoglm-9b-4bit "打开小红书搜露营装备"

首次运行会自动触发系统检查，看到如下日志才算真正就绪：

Checking system requirements... -------------------------------------------------- 1. Checking ADB installation... OK (Android Debug Bridge version 1.0.41) 2. Checking connected devices... OK (1 device(s): AERFUT4B08000806) 3. Checking ADB Keyboard... OK (com.android.adbkeyboard/.AdbIME active) -------------------------------------------------- All system checks passed!

4. 真机操作全流程实录：从指令到完成的每一步

我们以“打开抖音搜索抖音号为：dycwo11nt61d 的博主并关注他！”为例，完整跟踪AI如何一步步执行。

4.1 指令解析与界面感知

AI收到指令后，立即执行：

adb shell screencap -p /sdcard/screen.png截图
adb shell uiautomator dump /sdcard/ui.xml获取UI结构
将截图、XML、指令三者编码送入模型

思考过程（日志中<think>块）：

“用户要找特定抖音号，需先进入抖音App。当前界面无抖音图标，应先启动App。启动后需找到搜索框，输入抖音号，再点击搜索结果中的用户头像，最后点击‘关注’按钮。”

4.2 动作执行链：精准到像素的操控

步骤	AI生成动作	实际效果	关键观察
1	`{"action": "Launch", "package": "com.ss.android.ugc.aweme"}`	手机自动点亮→启动抖音	启动耗时约2秒，AI会等待App完全加载
2	`{"action": "Tap", "element": [850, 2100]}`	点击底部导航栏“放大镜”图标	坐标基于截图识别，非固定值
3	`{"action": "Type", "text": "dycwo11nt61d"}`	ADB Keyboard弹出，输入文字	文字实时显示在搜索框，无延迟
4	`{"action": "Tap", "element": [920, 1800]}`	点击搜索按钮（右上角“搜索”）	搜索结果列表加载中，AI插入Wait指令
5	`{"action": "Wait", "duration": "3 seconds"}`	屏幕保持不动，等待列表渲染	若省略此步，下一步可能点错位置
6	`{"action": "Tap", "element": [540, 820]}`	点击第一个搜索结果（用户头像）	进入博主主页
7	`{"action": "Tap", "element": [540, 1980]}`	点击页面中部“关注”按钮	成功关注，按钮文字变为“已关注”

全程无需人工干预，所有坐标由模型动态计算，适配不同分辨率手机。

4.3 输入法失效时的真实表现（血泪教训）

当我忘记切换默认输入法时，步骤3的Type指令会发生什么？

日志显示：执行动作: {"action": "Type", "text": "dycwo11nt61d"}（看似正常）
但手机屏幕毫无反应，搜索框空空如也
AI继续执行步骤4：尝试点击“搜索”按钮 → 因无文字，搜索无结果 → 后续所有动作全部错位
最终报错：Failed to find element for action Tap（找不到目标元素）

根本原因：ADB发出了字符，但系统把字符送到了搜狗键盘的后台进程，而搜狗不响应ADB指令，字符被丢弃。界面没变化，AI却以为“已输入”，导致后续逻辑全崩。

5. 进阶技巧与稳定性保障

5.1 WiFi无线连接：摆脱USB线束缚

USB线虽稳定，但长距离测试不便。WiFi连接只需两步：

# 1. 首次用USB连接后，开启TCP/IP模式 adb tcpip 5555 # 2. 断开USB，用手机IP连接（需手机与电脑在同一局域网） adb connect 192.168.3.102:5555

注意：部分路由器会限制ADB端口，若连接失败，改用adb connect 192.168.3.102（不带端口），系统会自动协商。

5.2 敏感操作人工接管：安全与可控的平衡

遇到支付、登录验证码等场景，AI不会强行操作，而是主动请求接管：

💭 思考过程: -------------------------------------------------- 检测到当前界面为支付宝登录页，包含手机号输入框和短信验证码输入框。 根据安全策略，需人工处理验证码。 -------------------------------------------------- 执行动作: {"action": "Take_over"}

此时手机屏幕会暂停，等待你手动输入验证码，完成后AI自动恢复流程。这是框架内置的安全护栏，不可绕过。

5.3 多任务连续执行：用API方式提升效率

单次命令适合测试，批量任务建议用Python API：

from phone_agent.main import run_agent # 连续执行三个任务，共享同一设备连接 tasks = [ "打开微博搜索'人工智能'相关热搜", "打开知乎搜索'大模型学习路径'", "打开B站搜索'AutoGLM教程'" ] for task in tasks: result = run_agent( device_id="AERFUT4B08000806", model_path="./models/autoglm-9b-4bit", instruction=task, local=True ) print(f" {task} -> {result['status']}")