news 2026/4/3 5:45:47

谷歌又一强大工具开源,Selenium 慌了!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
谷歌又一强大工具开源,Selenium 慌了!

做过爬虫或者自动化测试的朋友,应该都体会过被 Selenium 和 Puppeteer 支配的恐惧。

为了点一个按钮,我们得去扒网页源码,找 ID,找 Class。一旦网页改版,精心写好的脚本瞬间报错,维护起来既耗时又耗力。

那个时候我就在想,要是 AI 能像人一样,看一眼屏幕就知道点哪里,该多好。

如今,Google 把这个想法变成了现实。在 GitHub 上开源了一个名为Computer Use Preview的项目,直接让 Gemini 模型接管了浏览器。

简单来说,以前的自动化是“盲人摸象”,靠代码定位;现在的自动化是“睁眼看世界”,靠视觉识别。

这个工具背后的逻辑其实很符合直觉,就是模拟人的操作流程:截图 → 分析 → 行动

它会先给网页截个图,通过 Gemini 2.5 Pro 模型强大的视觉能力,分析出页面上有哪些输入框、按钮和下拉菜单,然后决定下一步该干什么。

口说无凭,数据最直观。

在官方给出的网页任务完成测试里,Gemini 拿到了69%的高分。

这个成绩相当能打,直接超过了 Claude Sonnet 4.5 的 55% 和 OpenAI Operator 的 61.3%。

这意味着在处理复杂任务时,它更不容易“翻车”。

官方演示了几个非常实用的场景,让我印象很深。

一个是跨网站数据搬运

以前我们要把一个宠物登记网站的信息,录入到另一个 CRM 系统里,得写复杂的脚本来处理数据接口。

现在直接告诉 AI:“把这上面的加州宠物信息填到那个系统里,顺便预约个时间。”

它就能自己切换页面,复制粘贴,一气呵成。

另一个是视觉交互

面对一个贴满乱七八糟便签的网页,给它一个指令,它就能精准地识别出每一张便签的内容,并把它们拖拽到分类区域。

这种涉及到空间理解和精细操作的任务,传统脚本很难搞定。

如果想上手体验,目前有两个选择。

第一种是懒人模式:

不想折腾环境的同学,Browserbase 提供了一个在线演示环境,直接打开网页就能试用,感受一下指挥 AI 上网的快乐。

在线体验:https://gemini.browserbase.com/

第二种是开发者模式:

如果想把数据掌握在自己手里,可以在本地部署。Google 提供了详细的部署教程,几行命令就能跑起来。

# 1. 创建虚拟环境python3 -m venv .venvsource .venv/bin/activate # 2. 安装依赖和浏览器内核pip install -r requirements.txtplaywright install chrome # 3. 开始运行python main.py --query "去 Google 搜索一下 GitHubDaily"

不过安装前得提个醒,虽然它很强,但目前毕竟是Preview(预览版)

官方文档里很明确地指出了一个 Bug:在某些系统上,底层的 Playwright 抓取不到系统原生的下拉菜单(<select>元素)。

所以如果发现它对着下拉框发呆,选不中选项,别怀疑,这是目前的已知限制。

总的来说,Google 这一波开源,让我们看到浏览器自动化的水准又迈上了一个新台阶。

它不再是机械地执行死板的代码,而是开始具备了“看懂”和“思考”的能力。

GitHub 项目地址:https://github.com/google-gemini/computer-use-preview

今天的分享到此结束,感谢大家抽空阅读,我们下期再见,Respect!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/1 1:47:36

如何快速掌握ComfyUI-ReActor面部交换:新手用户的完整指南

在AI图像处理技术快速发展的今天&#xff0c;ComfyUI-ReActor为普通用户提供了一个简单易用的面部交换解决方案。这个基于ComfyUI平台的扩展节点&#xff0c;让任何人都能在几分钟内实现专业级的面部交换效果。 【免费下载链接】ComfyUI-ReActor Fast and Simple Face Swap Ext…

作者头像 李华
网站建设 2026/3/28 13:06:32

GodMode9 终极指南:3DS 文件管理神器轻松上手

想要完全掌控你的任天堂 3DS 吗&#xff1f;GodMode9 这款强大的文件浏览器就是你的不二选择&#xff01;它能让你全面访问 SD 卡、系统内存和所有游戏数据&#xff0c;就像给你的 3DS 装上了一双"全能之眼"。本教程将手把手教你如何简单快速地安装配置这款神器。 【…

作者头像 李华
网站建设 2026/4/2 7:20:52

Silvaco TCAD终极指南:7天精通半导体仿真实战

还在为复杂的半导体仿真工具而苦恼吗&#xff1f;这份精心准备的Silvaco TCAD中文教程将彻底改变你的学习体验&#xff01;作为业界公认的半导体工艺和器件仿真黄金标准&#xff0c;Silvaco TCAD提供了从基础概念到高级应用的完整解决方案&#xff0c;帮助你在最短时间内掌握核…

作者头像 李华
网站建设 2026/4/2 10:58:14

基于spring和vue的高校新生预报到系统[VUE]-计算机毕业设计源码+LW文档

摘要&#xff1a;随着高校招生规模的扩大&#xff0c;新生报到工作面临着前所未有的挑战。传统的新生报到方式效率低下、流程繁琐&#xff0c;难以满足现代高校管理的需求。本文介绍了一种基于Spring和Vue技术的高校新生预报到系统&#xff0c;旨在通过信息化手段优化新生报到流…

作者头像 李华
网站建设 2026/4/2 6:42:45

ER-Save-Editor终极指南:5分钟掌握存档管理神器

ER-Save-Editor是一款专为《艾尔登法环》玩家设计的开源存档编辑工具&#xff0c;采用Rust语言开发&#xff0c;支持PC和PlayStation平台的存档文件处理。无论你是想要转移存档、调整角色数据&#xff0c;还是备份游戏进度&#xff0c;这款工具都能提供强大的支持。 【免费下载…

作者头像 李华
网站建设 2026/3/30 20:16:53

从零开始:用Miniconda-Python3.9部署PyTorch GPU环境

从零开始&#xff1a;用Miniconda-Python3.9部署PyTorch GPU环境 在深度学习项目启动阶段&#xff0c;最让人头疼的往往不是模型设计或算法调优&#xff0c;而是——“环境装不上”。你是否也遇到过这样的场景&#xff1a;刚克隆一个开源项目&#xff0c;运行pip install -r re…

作者头像 李华