news 2026/4/3 4:25:31

大模型榜单周报(2025/12/27)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大模型榜单周报(2025/12/27)

1. 本周概览

本周大模型领域持续涌现创新成果,数学、编程和多模态能力均出现显著进展。字节推出数学模型Seed Prover 1.5,在国际数学奥林匹克竞赛中取得金牌线成绩,而智谱AI开源GLM-4.7在多项评测中超越GPT-5.1。MiniMax的M2.1编码模型以10B激活参数创下多语言软件工程能力新高,北航提出的代码模型Scaling Laws为最优数据配比提供理论基础。

2. 重点关注事件

  • 字节发布数学模型Seed Prover 1.5,在16.5小时内解决IMO 2025前5道题目,失一题获得35分达到金牌线;在北美本科级别数学竞赛Putnam上大幅刷新SOTA成绩
  • 智谱AI开源GLM-4.7,在AIME 25和人类最后考试(HLE)等基准中分数超GPT-5.1;SWE-Bench分数达73.8%(+5.8%),创开源新高
  • MiniMax发布旗舰级Coding & Agent模型M2.1,在Multi-SWE-bench榜单中以仅10B激活参数拿下49.4%成绩,超越Claude Sonnet 4.5等顶尖竞品,拿下全球SOTA
  • 北航提出代码大模型的Scaling Laws,建立区分语言特性的Scaling Laws,并提出数学可解的最优数据配比方案,覆盖0.2B到14B参数规模及高达1T训练数据量,对七种主流语言进行系统性解构

3. 榜单变化

  • OpenRouter模型调用量:Grok Code Fast 1、Claude Sonnet 4.5、Gemini 2.5 Flash位列前三;小米MiMo-V2-Flash (free)新晋第4名;Gemini 3 Flash Preview新晋第6名;编程调用量方面,Grok Code Fast 1保持第1,KAT-Coder-Pro V1 (free)上升3名至第3,GPT-5.2下降5名至第7位
  • OpenRouter公司市占率:Google保持第1;xAI、Anthropic紧随其后;OpenAI市占率下降7.2%(17.7% → 10.5%)至第4位;DeepSeek份额上升1.8%(7.8% → 9.6%)保持第5名;小米份额占比7.0%,位列第7
  • 大语言模型(Text Arena):gemini-3-flash刷新成绩,超过Grok 4.1 thinking位列第2;ernie-5.0-preview-1203新晋第13名,超过gpt-5.2(评分基于预发布测试)
  • 编程能力榜单(WebDev Arena):glm-4.7新晋第6名,紧跟gemini-3-flash之后(评分基于预发布测试)
  • 编程能力榜单(LiveCodeBench GSO Leaderboard):Gemini-3-Flash新晋第8名,排名在O4-mini之后
  • 图像编辑能力(Artificial Analysis Image Editing Leaderboard):Reve V1新晋第8名,排名在Flux 2 Pro之后
  • 文生图榜单(Artificial Analysis Text to Image Leaderboard):ImagineArt 1.5 Preview超过Imagen 4 Preview位列第10名
  • 前沿数学能力(EPOCH AI FrontierMath):DeepSeek-V3.2以22.1%得分超过Kimi K2 Thinking位列第14名
  • GAIA榜单:SU Zero-Shuqian Series Pro MAX新晋榜首

4. OpenRouter排行榜

测评类型第一名第二名第三名
模型调用量Grok Code Fast 1Claude Sonnet 4.5Gemini 2.5 Flash
公司市占率GooglexAIAnthropic
编程模型调用量Grok Code Fast 1GPT-5.2Claude Sonnet 4.5

各公司按不同能力领域排名汇总

测评类型领先公司
大语言模型 Text ArenaGoogle、xAI、Anthropic、OpenAI、阿里巴巴、百度、月之暗面、智谱
编程能力 LMArenaAnthropic、OpenAI、Google
编程能力 LiveCodeBenchOpenAI、Anthropic、Google
代码工程任务能力 SWE-benchLite基于Claude、Gemini、GPT、Qwen、DeepSeek开发的开源系统
图像编辑和生成能力 Image Edit ArenaOpenAI、Google、字节、Reve
文生图能力 Text-to-Image ArenaOpenAI、Google、Black Forest Labs、腾讯、字节
图像编辑和生成能力 Image Editing LeaderboardOpenAI、Google、Black Forest Labs、字节、Pruna AI
文生图能力 Text to Image LeaderboardOpenAI、Google、Black Forest Labs、字节
GPQAOpenAI、Google、xAI、Anthropic、阿里巴巴
FrontierMathOpenAI、Google、月之暗面、Anthropic、xAI
Humanity's Last ExamGoogle、OpenAI、Anthropic
GAIAMicrosoft AI Asia -Ads、Suzhou AI Lab&Shuqian Tech、LR AILab of Lenovo CTO Org、NVIDIA、ZTE-AICloud、JoinAI、ShawnAgent、AIP agent等

关注我,第一时间掌握更多AI前沿资讯!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/1 13:00:40

终极指南:libphonenumber条件编译与Java特性检测的完整解决方案

终极指南:libphonenumber条件编译与Java特性检测的完整解决方案 【免费下载链接】libphonenumber Googles common Java, C and JavaScript library for parsing, formatting, and validating international phone numbers. 项目地址: https://gitcode.com/gh_mirr…

作者头像 李华
网站建设 2026/3/28 5:52:40

天文图像处理:使用TensorFlow识别星体与星云

天文图像处理:使用TensorFlow识别星体与星云 在夏威夷莫纳克亚山顶,一台望远镜正持续扫描深空,每晚生成数万张高分辨率图像。这些图像中藏着遥远星系的微弱光芒、新生恒星周围的气体云,甚至可能是尚未被发现的天体。然而&#xff…

作者头像 李华
网站建设 2026/4/1 18:58:15

Umi.js项目中Ant Design Icon深度优化实战指南

Umi.js项目中Ant Design Icon深度优化实战指南 【免费下载链接】umi A framework in react community ✨ 项目地址: https://gitcode.com/GitHub_Trending/um/umi 在现代化React应用开发中,图标系统的性能优化往往是决定用户体验的关键因素。Umi.js作为企业级…

作者头像 李华
网站建设 2026/3/29 4:59:53

你真的会用Open-AutoGLM吗?3个被90%开发者忽略的高级功能

第一章:你真的了解Open-AutoGLM吗?Open-AutoGLM 是一个面向自动化自然语言处理任务的开源框架,专注于大语言模型(LLM)驱动的任务编排与智能决策。它不仅支持多模型协同推理,还提供了可视化流程设计、动态上…

作者头像 李华
网站建设 2026/3/28 8:52:40

为什么顶尖团队都在用MCP协议驱动Open-AutoGLM?真相终于曝光

第一章:Open-AutoGLM沉思 mcp协议在现代智能系统架构中,通信协议的设计直接影响模型协同与推理效率。Open-AutoGLM 作为面向生成式任务的开源框架,引入了专为其优化的 MCP(Model Communication Protocol)协议&#xff…

作者头像 李华
网站建设 2026/4/1 6:55:43

【限时揭秘】Open-AutoGLM沉思版API三大隐藏功能,第2个震惊所有人

第一章:Open-AutoGLM沉思版API初探Open-AutoGLM 沉思版是一款面向自动化自然语言处理任务的开源大模型 API,专为开发者提供灵活、高效的文本生成与推理能力。其核心优势在于支持动态上下文理解与多轮逻辑推演,适用于智能问答、代码生成、内容…

作者头像 李华