news 2026/4/3 5:00:40

别再叫它“猜词器“!大模型视觉认知新发现,让AI开发者直呼内行

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
别再叫它“猜词器“!大模型视觉认知新发现,让AI开发者直呼内行

**大语言模型(Large Language Models,LLMs)是否真的像人类大脑一样认知和思考?**一些观点认为,LLM和大脑的结构相似,其理解语言的方式与人类本质上是一致的。另一些观点则认为,LLM本质上是一种“猜词器”,仅通过统计相关性来预测下一个生成的词汇。最近,发表于《Nature Machine Intelligence》上的一项研究从视觉层面上解答了这一问题。研究结果表明,LLM能够产生和人类大脑高度相似的深层视觉表征。

一、研究背景

人类大脑能够从视觉输入中提取复杂的图像信息,包括图像中的不同物体以及它们在空间和语义上的相互关系。尽管已有工作围绕场景类别展开大脑中场景表征的研究,但是人脑所提取的复杂视觉信息的定量方法仍未建立。因此,来自美国明尼苏达大学与加拿大蒙特利尔大学的科研团队提出了一个开放性问题:如何对人脑中的深层视觉表征信息进行定量和计算?

为回答这一问题,该科研团队将目光转向了大语言模型。LLM在海量的文本数据上进行训练,掌握了丰富的世界知识及语义关联,甚至涌现出令人惊叹的语言理解和推理能力。研究团队进一步假设:LLM对图像描述的嵌入能够有效捕捉人脑观看图像时所提取的深层视觉表征。

二、研究方法

为验证所提出的假设,科研团队尝试用LLM嵌入来表示人类观看视觉场景时的大脑活动。首先,研究所使用的数据集为Natural Scenes Dataset(NSD)和COCO数据集,其中NSD数据集通过高分辨率功能性磁共振成像(fMRI)记录了人类参与者在观看视觉场景时神经反应。随后,该团队将图像场景的纯文本描述投射至LLM的嵌入空间中,如下图所示。

图2 | 图像场景的纯文本描述被映射至LLM的嵌入空间,并通过表征相似性分析和线性编码模型分析得到LLM嵌入与fMRI数据之间的匹配程度。

实验1:LLM嵌入的线性映射捕捉人脑视觉表征

研究团队采用表征相似性分析(Representational Similarity Analysis,RSA)与线性编码模型分析LLM嵌入和人脑视觉表征。实验结果显示,RSA和线性编码模型能够有效地映射LMM表征和大脑表征之间的关系。具体而言,LLM嵌入与腹侧、外侧和顶叶等高级视觉区域的大脑活动高度相似。这一结果表明了LLM成功建立了与大脑相似的视觉信息表征,同时也揭示了一种可能性:仅凭借大脑神经反应和简单的线性模型,就能够反向推断出人类所看到的图像场景的文本描述。

图3 | 探照灯表征相似性分析显示,LLM嵌入能够匹配腹侧、外侧和顶叶等高级视觉区域的大脑活动。RSA(左)和线性编码模型(右)都有效地映射LLM表征和大脑表征之间的关系。

**实验解读:**LLM嵌入提供了一种通用的表征形式以捕捉大脑从视觉输入中获取的复杂信息。作者认为,LLM能够建立与大脑相似的视觉信息表征,是因为它们所学习到的统计规律在某种程度上与大脑多感官整合的神经机制相契合。本项研究中,LLM嵌入与大脑活动之间的结构化映射关系为探索大脑的视觉信息处理机制开辟了新的研究途径。

实验2:LLM能够像人脑一样整合场景描述中的复杂信息

研究团队认为,LMM表征和大脑表征之间的匹配是因为LLM能够整合场景描述中的复杂语义信息。为此,该团队进行实验以验证:(1)LLM与高级视觉表征对齐的能力不仅仅依赖于物体类别信息;(2)LLM与大脑视觉表征的匹配是由于其能融合整个场景描述的信息,而不仅仅依赖于词汇类别(如名词或动词);(3)视觉场景描述中的语义关联是LLM与大脑视觉表征对齐的重要因素。

图4 | LLM整句嵌入的效果优于仅依赖物体类别与仅依赖词汇类别的效果,表明LLM能够整合场景描述中的复杂语义信息。

**实验解读:**尽管输入为纯文本,LLM表征仍然与大脑表征表现出一致性,而这种一致性来源于LLM整合复杂信息的能力。这个结果带来了一种可能性:LLM嵌入或许能够被用于解码其他不具备语言能力的物种的神经活动,例如猕猴、小鼠等。最后,作者指出,对LLM嵌入的解释仍然是一项极具挑战性的任务,也是可解释人工智能的一个研究热点。未来仍需研究来探明LLM嵌入中的哪些元素与大脑表征具有最强的相关性。

实验3:基于LLM训练的递归卷积神经网络

在上述研究基础之上,研究团队提出了一个递归卷积神经网络(Recurrent Convolutional Neural Networks,RCNN)以根据给定图像场景预测相应的LLM嵌入。这种基于LLM训练的RCNN在COCO数据集上进行训练,所使用的训练集图像数量远少于以往的人工神经网络模型。该团队对所提出的RCNN进行评估,对比方法包含13种能够预测大脑视觉活动的人工神经网络模型。实验结果表明,该方法能够有效将图像输入转换为LLM表征,与人脑的深层视觉表征具有更高的一致性。

图5 | 基于LLM训练的递归卷积神经网络与其他人工神经网络模型的比较。横轴表示模型训练所使用的数据规模,纵轴表示模型表征与人类视觉皮层表征之间的一致性。所提出的网络在较少的训练数据规模下实现了较高的表征对齐程度。

**实验解读:**与LLM嵌入相一致的表征形式不仅信息丰富,还可能具备额外的计算优势。这种表征可能成为不同大脑系统之间的通信媒介。例如,如果将视觉信息和听觉信息都映射至一个类似LLM的表征空间中,就可以整合不同类型的信息,这或许能让人类实现与其他生物的高效交流。尽管LLM嵌入与大脑活动具有高度相似性,但并不意味着这些嵌入已经完全涵盖了大脑活动所包含的全部信息。作者认为,人类视觉系统会将视觉输入编码为和LLM嵌入相契合的表征形式,同时仍然会保留部分视觉信息。因此,基于LLM训练的神经网络的性能存在一定的提升空间。

结论与展望

通过多种不同的方法,研究团队成功证明了所提出的假设:**LLM对图像描述的嵌入能够有效捕捉人脑观看图像时所提取的深层视觉表征。**多项实验结果表明,LLM可以用来表示人类观看自然场景时的大脑活动,基于场景描述的LLM嵌入提供了有效的表征格式以解释大脑从视觉输入中提取的复杂图像信息。同时,该团队也给出了相应解释:LLM表征能够与大脑表征匹配的核心原因是LLM能够整合场景描述中的复杂信息。LLM嵌入,以及能够提取此类嵌入的人工神经网络,或将为计算神经科学开辟新的方向。

本项研究在视觉层面上支撑了观点:LLM和大脑的结构相似,其理解语言的方式与人类本质上是一致的。在与视觉相关的表征上,LLM并非仅仅是一种“猜词器”,而更像是与与人类相似的认知模型。值得注意的是,训练所提出方法需要的图像数量远少于先前的人工神经网络模型,这意味着要训练与大脑类似的智能体,并不一定需要超大规模的视觉数据集——未来大模型的设计或许不在于数据规模的堆砌,而在于数据结构的捕捉。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包

  • ✅ 从零到一的 AI 学习路径图
  • ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
  • ✅ 百度/阿里专家闭门录播课
  • ✅ 大模型当下最新行业报告
  • ✅ 真实大厂面试真题
  • ✅ 2025 最新岗位需求图谱

所有资料 ⚡️ ,朋友们如果有需要《AI大模型入门+进阶学习资源包》下方扫码获取~

① 全套AI大模型应用开发视频教程

(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)

② 大模型系统化学习路线

作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。

④ AI大模型最新行业报告

2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

⑤ 大模型项目实战&配套源码

学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。

⑥ 大模型大厂面试真题

面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余

以上资料如何领取?

为什么大家都在学大模型?

最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!

不出1年,“有AI项目经验”将成为投递简历的门槛。

风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!

这些资料真的有用吗?

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

以上全套大模型资料如何领取?

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/3 3:59:33

使用Docker镜像源加速GLM-4.6V-Flash-WEB部署全过程

使用Docker镜像源加速GLM-4.6V-Flash-WEB部署全过程 在多模态AI应用日益普及的今天,如何快速、稳定地将视觉语言模型(VLM)部署到生产环境,已成为开发者面临的核心挑战之一。尤其是在国内网络环境下,直接拉取海外Docke…

作者头像 李华
网站建设 2026/3/29 22:21:48

ComfyUI自定义组件封装GLM-4.6V-Flash-WEB调用逻辑

ComfyUI自定义组件封装GLM-4.6V-Flash-WEB调用逻辑 在如今多模态AI应用爆发式增长的背景下,图文理解、视觉问答和内容生成等任务早已不再是实验室里的概念,而是真实落地于智能客服、教育辅助、内容审核乃至创意设计中的核心能力。然而,对于大…

作者头像 李华
网站建设 2026/4/2 0:23:24

Git commit规范助力GLM-4.6V-Flash-WEB项目协作开发

Git Commit 规范如何赋能 GLM-4.6V-Flash-WEB 的高效协作 在开源 AI 项目日益复杂的今天,一个模型能否被广泛采用,往往不只取决于它的推理精度或响应速度,更在于其背后的工程成熟度。以智谱推出的 GLM-4.6V-Flash-WEB 为例,这款面…

作者头像 李华
网站建设 2026/3/27 10:54:49

JavaScript节流控制GLM-4.6V-Flash-WEB请求频率

JavaScript节流控制GLM-4.6V-Flash-WEB请求频率 在构建现代Web端AI应用时,一个常被低估却至关重要的问题浮出水面:用户操作的随意性与模型服务资源有限性之间的矛盾。以智谱AI推出的 GLM-4.6V-Flash-WEB 为例,这款专为高并发、低延迟设计的轻…

作者头像 李华
网站建设 2026/4/2 4:50:08

强烈安利8个AI论文软件,专科生轻松搞定毕业论文!

强烈安利8个AI论文软件,专科生轻松搞定毕业论文! AI 工具,正在改变论文写作的规则 对于专科生来说,毕业论文往往是一道难以逾越的门槛。从选题到撰写,再到查重降重,每一个环节都可能让人感到焦虑和无助。而…

作者头像 李华