news 2026/4/3 3:38:18

SFT后训练32B-LLM的一些观察

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
SFT后训练32B-LLM的一些观察

用单一语种数据集SFT

用COIG-CQIA数据集,以及把COIG-CQIA数据集混合guanaco和belle之后的数据集一起SFT 32B-Base模型,或者基于32B-Chat模型SFT(1-3 epoch),
目的是想提升LLM在单一语种的效果,
然后在中文通用评测集CEVAL和CMMLU评测,
效果都不如32B-Chat模型。

用一个NLP数据集SFT

用一个NLP任务的数据集(30W data),SFT 32B-Base模型,或者基于32B-Chat模型SFT(1 epoch),
目的是想把预训练的知识用到这个NLP任务里,
把SFT之后的LLM作为标注这个NLP任务训练数据的标注LLM,
效果还不如通用的32B-Chat模型作为标注LLM。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/2 16:01:40

计算机小程序毕设实战-基于net+微信小程序的环保市容市容监察管理系统设计【完整源码+LW+部署说明+演示视频,全bao一条龙等】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/3/13 14:29:12

计算机毕业设计springboot大学生短期兼职信息系统 基于SpringBoot的校园灵活用工撮合平台 采用SpringBoot框架的高校学生零工信息服务中心

计算机毕业设计springboot大学生短期兼职信息系统 (配套有源码 程序 mysql数据库 论文) 本套源码可以在文本联xi,先看具体系统功能演示视频领取,可分享源码参考。“生活费不够”“实习经历为零”“简历一片空白”——这三座大山压在大学生身上…

作者头像 李华
网站建设 2026/4/3 1:35:01

sward实践教程 - 如何有效保障文档的安全可靠

sward是一款国产开源免费知识库管理工具,工具支持一键安装零配置,页面设计简洁易用。本文将介绍sward如何通过多重机制有效保障文档的安全可靠。1、知识库可见范围创建知识库时,可以选择可见范围公共或者私密。公共:系统全部成员可…

作者头像 李华
网站建设 2026/3/31 2:02:15

AI创业必看!专业源头厂家哪家强?揭秘行业顶尖之选

AI创业新征程:探寻优质源头厂家,开启成功之门在当下科技浪潮汹涌澎湃的时代,人工智能(AI)创业成为了众多创业者的热门选择。然而,要在竞争激烈的AI创业领域站稳脚跟,找到一家专业且靠谱的源头厂…

作者头像 李华
网站建设 2026/3/27 6:05:32

nextcloud

docker & docker-compose 安装略 docker push nextcloud docker pull docker.1ms.run/library/nextcloud:stable创建目录 mkdir -p /opt/data/docker/nextclouddocker-compose.yml nano /opt/data/docker/nextcloud/docker-compose.yml# yml 内容 version: 3 services:# N…

作者头像 李华