news 2026/4/3 1:29:42

K-Means (K-均值聚类):物以类聚的整理术

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
K-Means (K-均值聚类):物以类聚的整理术

图解说明

  • 大叉叉:代表“桌长”(聚类中心)。
  • 🔴🔵🟢颜色点:代表不同的“桌子”(簇)。
  • ➡️箭头:代表桌长为了寻找真正的中心,正在移动。

机器学习里最经典的聚类算法——K-Means

之前我们介绍的算法(比如 SVM、KNN)都是有监督学习,也就是老师给了你标准答案(告诉你是猫还是狗)。
但 K-Means 不一样,它是无监督学习。也就是说,没有标准答案,全靠自己找规律。

如果你完全不懂算法,没关系。想象一下,你是一个婚礼策划师

1. 它是做什么的?(举个栗子)

你的任务是给100 位宾客安排座位。
但是,你完全不认识这些人!你不知道谁是新郎的亲戚,谁是新娘的同事。
你只知道他们的年龄职业(这就是数据特征)。

你的目标是:把这 100 个人分成 3 桌(K=3),让每一桌的人尽可能相似,这样他们才有共同话题,不会尴尬。

K-Means 就是帮你干这个的:把一堆杂乱无章的数据,自动分成 K 个堆。


2. K-Means 的“分桌”步骤

K-Means 的工作方式非常像一个不断调整的民主选举

第一步:随机选“桌长” (初始化)

首先,你心里没底,于是随便指了 3 个人(比如张三、李四、王五)说:“你们三个先当桌长,分别坐到 A、B、C 三张桌子上。”

  • 这时候,桌长的位置是随机的,可能很不合理。

第二步:各自找队伍 (分配)

剩下的 97 个人,看这 3 位桌长,谁离自己最近(特征最相似),就坐到谁那一桌去。

  • 年轻人可能觉得张三也是年轻人,就去了 A 桌。
  • 程序员可能觉得李四也是程序员,就去了 B 桌。

第三步:重新选“桌长” (更新中心)

大家都坐好后,你发现 A 桌虽然大部分是年轻人,但张三其实是个喜欢安静的文艺青年,坐在这一桌吵闹的年轻人中间有点格格不入(他不是真正的中心)。
于是,大家在 A 桌里重新选出一个最能代表这一桌平均水平的人(真正的中心点),让他当新的桌长。
B 桌、C 桌也同样选出新的中心人物。

第四步:重复折腾 (迭代)

因为桌长换人了(中心点变了),大家发现:“咦?我现在离新的 B 桌桌长更近一点,我不该在 A 桌。”
于是,大家重新站起来,寻找离自己最近的新桌长
分好组后,再次选出新的中心…

第五步:尘埃落定 (收敛)

就这样重复了几轮,直到某一次,新的桌长位置不再变化了(或者变化非常小)。
这时候,分桌结束!


3. 那个 “K” 是什么意思?

K就是你想要分成的组数

  • 如果你想分 3 桌,K=3。
  • 如果你想分 5 桌,K=5。

关键问题:我怎么知道 K 选几?
这确实是个难题。通常我们会试一试:

  • K=2,分得太粗糙。
  • K=10,分得太细碎。
  • 我们会画一条曲线(叫手肘法),找那个“性价比”最高的点。

4. K-Means 的优缺点

✅ 优点 (为什么它好用?)

  1. 简单快:原理简单,算起来也快,是聚类算法里的“快刀手”。
  2. 直观:分出来的结果通常很好解释(比如分成了“高消费组”、“低消费组”)。

❌ 缺点 (也要注意)

  1. K 值难定:你必须预先告诉它分几组,如果设错了(比如本来有 3 类,你非要分 2 类),效果会很差。
  2. 怕“脏”数据:如果有一个人特别离谱(异常值),比如一个 100 岁的老人混进了幼儿园聚会,他可能会把整个组的平均年龄拉大,导致中心点偏离。
  3. 只喜欢圆圆的团:它假设每一类都是圆圆的一坨。如果数据是弯弯曲曲的形状(比如笑脸形),它就分不好了。

5. 总结

K-Means就是一个不断纠结的整理控

  • 随机开始:先随便定几个中心。
  • 物以类聚:大家找最近的中心抱团。
  • 自我修正:根据抱团结果,重新计算中心。
  • 循环往复:直到找到最完美的平衡点。

下次你整理衣柜,把衣服分成“夏天穿的”、“冬天穿的”、“运动穿的”,其实你就在人肉执行 K-Means 算法!🧹

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/31 13:47:57

基于SpringBoot + Vue的博客系统的设计与实现

文章目录前言一、详细操作演示视频二、具体实现截图三、技术栈1.前端-Vue.js2.后端-SpringBoot3.数据库-MySQL4.系统架构-B/S四、系统测试1.系统测试概述2.系统功能测试3.系统测试结论五、项目代码参考六、数据库代码参考七、项目论文示例结语前言 💛博主介绍&#…

作者头像 李华
网站建设 2026/3/25 10:59:36

【国产AI突围之战】:Open-AutoGLM之外的4个高潜力自主可控大模型

第一章:国产大模型自主可控的战略意义在当前全球人工智能竞争日益激烈的背景下,实现大模型技术的自主可控已成为国家科技战略的核心议题。掌握核心技术不仅关乎产业竞争力,更直接影响数据安全、意识形态安全与国家主权。技术主权与国家安全 大…

作者头像 李华
网站建设 2026/3/27 9:53:58

为什么顶级科技公司都在布局智谱·Open-AutoGLM智能体?真相令人震惊

第一章:为什么顶级科技公司都在布局智谱Open-AutoGLM智能体?真相令人震惊在人工智能技术飞速演进的今天,智谱AI推出的Open-AutoGLM智能体正悄然成为全球科技巨头战略布局的核心。它不仅具备强大的自然语言理解与生成能力,更通过自…

作者头像 李华
网站建设 2026/3/15 13:40:24

Open-AutoGLM移动端部署避坑指南:90%开发者忽略的4个致命问题

第一章:Open-AutoGLM移动端部署概述Open-AutoGLM 是基于 AutoGLM 架构优化的轻量化大语言模型,专为在资源受限的移动设备上实现高效推理而设计。其核心目标是在保持语义理解能力的同时,显著降低计算开销与内存占用,适用于智能手机…

作者头像 李华
网站建设 2026/3/22 4:52:45

(Open-AutoGLM技术对标白皮书):5家中国AI企业已实现同等能力

第一章:Open-AutoGLM类似的ai有哪些? 近年来,随着大语言模型的快速发展,涌现出一批与 Open-AutoGLM 功能相似的开源或闭源 AI 框架和平台。这些系统在自动化代码生成、自然语言理解、任务编排等方面表现出色,广泛应用于智能编程助…

作者头像 李华