news 2026/4/3 5:44:26

硬件有限,如何部署“大”模型?AMCT模型压缩工具3步解忧

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
硬件有限,如何部署“大”模型?AMCT模型压缩工具3步解忧

我们在谈论AI大模型时,一方面会为其在逻辑推理、问题回答等各种任务中的表现出色而惊叹,另一方面也会为其巨大存储和海量计算而“头疼”。模型尺寸的不断增长确实给模型部署带来了极大的挑战,动辄几十GB,上百GB甚至上千GB的存储量,昂贵的硬件资源需求不仅让普通用户难以企及,企业用户也常常面临挑战。

在保持模型能力的前提下,如何降低模型存储需求,如何降低模型计算时延,是模型开发者和性能优化专家研究的热点问题,而模型量化压缩优化是解决这些问题的最重要的手段之一。量化效果好不好,跟原始数据的分布紧密相关,如果原始数据中存在outlier离群值,直接量化往往无法兼顾所有数据,量化效果通常会比较差。量化压缩算法通过各种方式来调整数据分布或调整量化方式,来提升最终的量化效果。AWQ/GPTQ算法对模型权重进行压缩,在保持网络精度的同时,可以将模型权重压缩到4bit,相比BF16数据模型权重参数量降低75%;SmoothQuant对激活和权重都做压缩,通过硬件更高效的低比特矩阵乘运算,不仅拿到了内存收益,同时降低了端到端的时延,提升了系统吞吐。AMCT模型压缩工具,将这些算法集成到工具中,开发者拿来即用,可以满足仅权重量化,激活权重量化等不同场景的使用需求。

对模型优化的开发者来说,硬件资源通常比较有限,如何在有限的硬件资源中高效完成模型压缩的全过程,也是开发者重点关注的问题。AMCT提供的逐block量化的算法,将模型拆分成小的量化模块单元,每个量化模块都可以单独执行量化校准过程。这些量化模块可以分配在不同的NPU卡上并行执行,大大提升了开发效率;即使开发者只有一张NPU卡,通过分块执行的方式也可以完成DeepSeek-V3.2这种尺寸规模的模型量化。MoE模型因为每个专家在模型中热度不同,整网的量化校准需要很多量化校准数据才能覆盖全部专家,逐block量化对于提升MoE模型的量化效率特别有帮助。

此外,AMCT工具简单易用,它是基于PyTorch框架做模型压缩,开发者只需要调用2,3个简单的python接口就可以完成模型压缩。量化配置的方法也很灵活,开发者可自行修改量化配置文件,调整压缩策略,获取较优的压缩结果。

参照上图,通过3步完成模型“瘦身”:

1. 准备好量化配置,调用amct.quantize接口,将原始模型转换成量化校准模型。

2. 准备好校准数据集,对量化校准模型进行校准推理,得到量化参数。

3. 调用amct.convert接口,将量化模型转换成昇腾亲和的部署模型。

欢迎关注昇腾CANN公众号,及时获取直播时间与观看链接,相信通过这次直播,大家会对AMCT的使用有更深入的了解,也能够在今后的开发工作中充分发挥它们的强大威力,为昇腾芯片的应用开发带来更多的创新和突破!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/1 8:44:24

基于Springboot滑雪场管理系统【附源码+文档】

💕💕作者: 米罗学长 💕💕个人简介:混迹java圈十余年,精通Java、小程序、数据库等。 💕💕各类成品Java毕设 。javaweb,ssm,springboot等项目&#…

作者头像 李华
网站建设 2026/4/3 4:09:54

三菱FX5U与MR-JE-C伺服基于CC - LINK BASIC总线通信项目实战分享

三菱FX5U自带以太网口CC-LINK BASIC总线通信,最多可以带16个MR-JE-C伺服,已经完成的项目,伺服使用定位和扭矩功能,性价比超级高。 (包含PLC维纶HMI画面、伺服参数样例,电气原理图,电气物料BOM清单)&#xf…

作者头像 李华
网站建设 2026/4/3 4:53:32

Iridescent:Day34

https://blog.csdn.net/weixin_45655710?typeblog浙大疏锦行 DAY 34 GPU训练及类的call方法 知识点回归: CPU性能的查看:看架构代际、核心数、线程数GPU性能的查看:看显存、看级别、看架构代际GPU训练的方法:数据和模型移动到G…

作者头像 李华
网站建设 2026/4/1 21:03:31

基于matlab的自由手写体数字识别系统

- 标题: 基于matlab的自由手写体数字识别系统 - 关键词:matlab GUI界面 手写体数字 预处理 bp神经网络 特征提取 - 简述:支持打开图片识别,可对图片进行二值化、噪声处理、图像分割、归一化、细化等图像处理方法,采用了…

作者头像 李华
网站建设 2026/4/2 23:38:14

计算机Java毕设实战-基于java零售与仓储管理系统的设计与实现基于javaweb的超市/仓储管理系统【完整源码+LW+部署说明+演示视频,全bao一条龙等】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/3/31 7:20:26

Java毕设选题推荐:基于java零售与仓储管理系统的设计与实现基于Java的仓库管理系统(进销存)完整设计与实战【附源码、mysql、文档、调试+代码讲解+全bao等】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华