摘 要
2025年末,两场发生在太平洋两岸的冲突——中国的“豆包手机”被微信、淘宝等封禁,美国的Perplexity购物助手被亚马逊起诉——揭开了AI时代最残酷的流量入口争夺战。在技术层面,利用AI Agent实现手机自动化操作已然成熟;但在现实层面,商业利益的护城河与法律规范的模糊,构成了技术落地的最大障碍。本文将从**“意图框架”与“纯视觉方案”**的技术路线之争切入,剖析在位巨头与新晋挑战者之间的利益博弈,并提出一个核心观点:如果代表秩序的“意图框架”因权利碎片化而陷入“反公地悲剧”,那么看似激进的“纯视觉方案”或许能在法理与市场的博弈中找到其存在的正当性。
一、引言:系统级控制权的“七十二小时战争”
2025年的冬天,互联网的平静水面被两块巨石激起千层浪。在中国,字节跳动旗下的豆包团队与中兴手机联手,推出了一款基于nubia M153的工程样机。这款被定义为“系统级Agent”的手机,试图重构人与App的关系:用户只需一句话,AI就能自动操作微信发朋友圈、在淘宝比价下单。另据21世纪经济报道,还有用户使用豆包手机在拼多多刷视频领金币,在抖音极速版获取流量激励,以及尝试让AI代打王者荣耀。[豆包手机上线5日紧急调整,价格从3499元被炒至1.29万]
然而,这场技术演示迅速演变为一场“惨烈”的攻防战。仅仅72小时内,大量用户反馈微信账号因环境异常被封禁,淘宝触发风控验证,各大银行App紧急升级针对屏幕共享的监测措施。[“封杀”豆包手机助手可以理解,但最终是封不住的]
在大洋彼岸的美国,类似的剧本也在上演。电商霸主亚马逊(Amazon)对AI搜索新贵Perplexity发起诉讼,指控其推出的Comet浏览器及其购物Agent功能隐秘地访问客户账户,并将AI活动伪装成人类浏览。亚马逊,这个曾经靠“一键下单(1-Click)”专利建立起便捷购物帝国的巨头,如今却站在了更极致便捷——“零点击(AI代购)”——的对立面。
🔺Perplexity发布公开信,谴责Amazon利用市场势力实施“霸凌”
埃隆·马斯克在最近的一次访谈中谈道:“未来5年,所有传统手机和App会消失。”这两起看似独立的事件,实则指向了同一个历史性的转折点:手机终端自动化操作的技术奇点已经到来,但旧世界的商业秩序与法律框架拒绝接纳它。这不是简单的技术故障,而是关于谁能掌控下一代互联网入口的主权战争。
二、向左走,向右走:两条截然不同的技术路线
要看懂这场神仙打架般的争议本质,我们得先回到一个最基本的问题:AI究竟是如何代替人类那双手,去操控手机里那些复杂的App的?
这门让手机“自动驾驶”的技术,其实已经悄然发展了一段时间。工程师们尝试了各种五花八门的办法,但如果剥开令人眼花缭乱的技术外壳,我们会发现,所有这些复杂的方案最终都可以归纳为两条最基本的底层逻辑。
第一种路线,可以形象地理解为“走后门”的合作派。在这种模式下,AI Agent并不需要像人一样去看屏幕,而是通过App开发者预先留好的专用通道(数据接口/API)直接发送指令。比如,AI直接向外卖App的后台发送一个标准化的“订购”信号,App接到信号后自动执行。这种依赖标准接口、需要各方配合的技术路线,在专业领域被称为**“意图框架方案(Intent Framework)”**。
🔺 谷歌Gemini辅助生成的演示图片——意图框架方案
第二种路线,则是“拟人化”的独行派。在这种模式下,AI Agent的工作方式几乎和人类一模一样:它用“眼睛”(摄像头或屏幕截图技术)去看当前屏幕上显示了什么内容,识别出哪里是按钮、哪里是输入框,然后模拟人类的手指去点击或滑动屏幕。它不需要App开发者的主动配合,完全靠自己“看图操作”。这种技术路线被称为**“纯视觉方案(Vision-based Scheme)”**。
🔺 谷歌Gemini辅助生成的演示图片——纯视觉方案
这两起看似独立的事件,实则指向了同一个历史性的转折点:手机终端自动化操作的技术奇点已经到来,但旧世界的商业秩序与法律框架拒绝接纳它。这不是简单的技术故障,而是关于谁能掌控下一代互联网入口的主权战争。
理解了这两种截然不同的路径,我们就能明白:这不仅仅是工程实现上的A/B选项,更是两种完全不同的行为模式。正是这种底层的技术分野,从根本上决定了它们各自会撞上怎样截然不同的法律红线与商业铁壁。
为了更直观地理解两者的差异,我们可以通过下表进行对比:
目前的僵局在于:在位的大型操作系统厂商(如苹果、谷歌)倾向于推行意图框架,以维持生态秩序;而新晋的AI挑战者(如豆包、Perplexity)因无法、或者担心无法获得接口授权,倾向于选择纯视觉方案进行突围。
不过,耐人寻味的是,部分科技巨头在这场博弈中表现出了明显的“分裂人格”。以腾讯为例,它既是旧秩序的坚定捍卫者,又是新技术的激进探索者。作为微信、QQ、腾讯视频等超级App的拥有者,腾讯当然无法容忍外部Agent未经许可“穿透”其生态围墙。在“豆包手机”事件中,微信迅速以“登录环境异常”为由对相关账号进行了封禁。然而,在技术研发的另一面,腾讯自身却也在低调布局基于纯视觉的Agent技术(如App Agent方案)。
这种“左手封杀外部视觉 Agent,右手研发同类技术”的矛盾姿态,恰恰折射出在位巨头们在AI时代的极度焦虑:他们既恐惧自己的护城河被别人的Agent填平,又害怕在未来的Agent流量入口争夺中掉队。这种双重标准,不仅是商业策略的体现,更是技术转型期特有的“巨头焦虑症”。
🔺 腾讯团队发表的基于视觉方案的手机Agent模型论文
三、意图框架的困境:权利碎片化与“反公地悲剧”
既然意图框架更稳定、更合规,为什么直到今天,我们依然无法通过Siri或Android助手顺畅地操作所有App?
这就触及了一个深刻的经济学与法学难题——“反公地悲剧”(The Tragedy of the Anticommons)。美国法学家迈克尔·赫勒(Michael Heller)曾提出,**当太多的权利人对一种资源拥有“排他权”或“否决权”时,这种资源往往会被闲置或利用不足。**例如,一条原本具备极高航运价值的河流,若其流经的每一段都被不同的领主设卡控制,那么整条河流的航运功能便可能因通关成本过高而名存实亡。
在AI手机的语境下,“用户的跨应用操作体验”就是那个稀缺资源。要实现一个简单的指令:“把我在大众点评上看到的A餐厅发给微信好友B,并启动滴滴打车前往A餐厅。”这需要大众点评、微信、滴滴三个独立的权利主体分别开放API接口(Intents)。只要其中任何一个厂商出于竞争考虑拒绝向外部Agent开放接口,整个操作链条就会断裂。
这与音乐流媒体早期面临的困境惊人相似。正如关于Spotify的研究指出的那样,在流媒体诞生初期,由于版权分散在无数唱片公司手中,且缺乏强制许可制度,获取完整授权的交易成本极高,导致合法的流媒体服务举步维艰。
目前的意图框架正是陷入了这种权利碎片化的泥潭。对于超级App而言,开放接口意味着将核心用户数据和流量入口拱手让人,它们有充分的动机行使“排他权”。因此,虽然意图框架在技术上是完美的,但在商业博弈中却往往是失效的。
四、纯视觉方案的法律雷区:中国法视角的审视
当“走后门”(意图框架)被堵死时,AI厂商选择了“翻墙”(纯视觉方案)。但这种未经许可的“翻墙”行为,在现行的法律框架下,也面临着严峻的合规挑战。以下是以中国法为例进行的简要分析:
1. 违反《反不正当竞争法》“数据专条”的风险
纯视觉Agent的核心动作是“读取屏幕”,这在技术上往往涉及对App界面数据的抓取。根据《反不正当竞争法》新设的“数据专条”及过往判例【关于《反不正当竞争法》对数据侵权的规制,可以参见往期文章:[2025《反法》“数据专条”对数据侵权案件的影响分析],如果Agent的行为符合以下特征,极易被认定为侵权:
**①破坏技术管理措施:**如果App设置了反爬虫机制、验证码或禁止模拟点击的协议(APP厂商为了维护商业优势、防止被替代,非常有动力这么做),而Agent通过技术手段绕过这些措施(例如伪造设备指纹),则触犯了法律红线。
**②实质性替代:**如果Agent直接提取了App的核心内容(如比价信息、视频内容)呈现给用户,导致用户不再需要打开原App,这种市场替代效应是法院判定不正当竞争的关键考量。
2. “妨碍干扰”与《反不正当竞争法》第十三条第二款
即便不涉及数据抓取,单纯的“自动化操作”也可能构成《反不正当竞争法》第十三条第二款“利用数据和算法、技术、平台规则等,实施妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行的行为”。在**“腾讯诉搜道案”【案号:(2019)浙8601民初1987号】**中,被告开发了一款能够自动化操作微信(如批量点赞、加好友)的群控软件。法院最终认定,该软件利用技术手段(Xposed框架)寄生于微信平台,异化了微信的社交功能,不仅增加了服务器负担,更破坏了原告合法的商业模式和生态系统的健康,因此构成不正当竞争。
今天的AI Agent虽然更加智能,但其技术本质——未经许可接管App控制权——与当年的“群控软件”存在相似之处。如果AI Agent 在操作过程中跳过了开屏广告、屏蔽了推荐内容,或者高频次访问导致服务器压力增大,极有可能被认定为违反《反不正当竞争法》第十三条第二款的规定。
3. 商业模式的破坏与《反不正当竞争法》一般条款
在**“腾讯诉世界星辉”案【案号:(2018)京73民终558号】**中,原告腾讯公司经营着知名的“腾讯视频”网站,其核心商业模式是“免费视频+广告”与“VIP会员付费”并存。被告世界星辉公司则开发了一款名为“世界之窗”的浏览器。
案情的核心冲突在于:这款浏览器在“设置”菜单中提供了一个“广告过滤”选项,其中包含“强力拦截页面广告”的功能。当用户勾选该功能后访问腾讯视频时,不仅长达75秒的片头广告和暂停广告会被直接屏蔽,甚至连视频页面上引导用户付费的“开通VIP会员”按钮也会随之消失。腾讯公司认为,这种行为不仅剥夺了其广告收益,还切断了将免费用户转化为付费会员的通道,严重破坏了其商业模式。
北京知识产权法院在该案二审中指出,虽然网络用户有权选择是否观看广告,但作为经营者的世界星辉公司,利用技术手段直接干预了腾讯的正常经营。最终,法院认定世界星辉公司的行为构成不正当竞争,并判决其赔偿腾讯公司经济损失及合理支出共计189万余元。这一判例确立了技术工具在辅助用户与干扰竞争之间的法律红线。
这给AI Agent敲响了警钟。亚马逊起诉Perplexity的核心逻辑也在此:如果AI帮用户买东西时绕过了亚马逊页面上的广告和推荐商品,那么亚马逊赖以生存的商业闭环就被打破了。在中国法下,这种对他人成熟商业模式的直接破坏,很难通过“技术中立”来豁免责任。
注:在美国法视角下,这还可能涉及版权法中的“临时复制”版权侵权问题(Agent为了分析屏幕必须先截图缓存),以及违反CFAA(计算机欺诈与滥用法)关于“未经授权访问”的规定。但中国法的核心关注点更多在于竞争秩序的维护。
五、结语:在“反公地悲剧”与“野蛮生长”之间寻找出路
AI Agent手机的突围之路,注定不会平坦。我们正处于一个微妙的临界点:
一方面,技术已经成熟。AI有能力通过视觉方案打破App的孤岛,为用户带来前所未有的便利。另一方面,规则尚未确立。现有的商业生态倾向于保护既得利益者的围墙,而对于AI代表用户进行的“自动化代理”行为缺乏共识。
未来的走向,或许并不取决于一纸完美的法律条文,而是取决于产业主体之间在动态博弈中达成的协调。
虽然学界和业界常通过类比音乐产业,提出通过立法创设“法定许可”制度,或通过反垄断法“必需设施”原理等规定超级App必须以公平、合理、无歧视(FRAND)的原则开放关键接口。这些方案在理论上看起来非常迷人,仿佛能一劳永逸地解决“反公地悲剧”。但在现实中,期待通过自上而下的立法来精准切割如此复杂的利益蛋糕,不仅面临巨大的立法成本和游说阻力,更可能因为技术的快速迭代而导致法律刚一出台即滞后。
因此,更现实的路径或许是“以战促和”的市场化协调。
目前的“纯视觉方案”虽然面临法律风险,但它实际上扮演了“破壁者”的角色。正如当初P2P(点对点传输技术)的流行倒逼唱片公司走上谈判桌、最终催生了流媒体授权模式一样;豆包、Perplexity等厂商的激进尝试,虽然在当下显得有些“野蛮”且充满争议,但它们实际上是在用一种极限施压的方式,展示了“围墙”是防不住技术的。
这种技术压迫感,或许才是促使超级App们从“坚决封杀”转向“有限开放”的最大动力。最终,双方极有可能在法律的模糊地带中,通过商业谈判达成一种新的契约:平台方通过开放部分标准接口(意图框架)来换取对AI行为的可控与安全,而AI厂商则通过支付费用或流量互换来获得合法的通行证。
推荐一期有关AI Agent的科普播客(链接请点击“阅读原文”):小宇宙“Orpheus微见”:034-一种没有边界感的AI,正在被大力推广(2025年2月27日发布)。
本文内容不代表作者及其律师事务所对任何问题的法律意见或咨询建议。如需转载或引用文章的任何内容,请私信沟通授权事宜,并于转载时在文章开头处注明公众号来源及作者姓名。未经授权,不得转载或使用文章中的任何内容。欢迎读者朋友进一步交流或探讨。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。