news 2026/4/3 6:08:11

什么是“标签”?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
什么是“标签”?

标签”(Label)是机器学习中最基础、也最容易混淆的概念之一。


一、什么是“标签”?(Label)

标签 = 正确答案
它是你希望模型最终能预测出来的目标值。

举个生活化的例子:

  • 你给模型看一张猫的照片 → 标签是 “猫”
  • 你给模型一组血压、心率数据 → 标签是 “是否患病(是/否)”

在工业传感器场景中:

  • 你输入过去10秒的温度、振动、电流数据 →
    • 如果做异常检测,标签可能是:正常异常
    • 如果做RUL预测,标签可能是:剩余还能运行 120 小时

二、标签在不同任务中的形式

1.分类任务(Classification)→ 标签是类别

任务输入(特征)标签(Label)
故障检测[温度=85, 振动=3.2, ...]"正常""故障"
故障类型识别[压力=10, 噪声=60dB, ...]"轴承磨损""电机过热""正常"

🔹 标签通常是字符串或整数(如 0=正常,1=故障)


2.回归任务(Regression)→ 标签是连续数值

任务输入(特征)标签(Label)
RUL 预测过去50个时间步的传感器数据127.5(小时)
温度预测当前工况参数92.3(℃)

🔹 标签是一个实数(float)


3.无监督学习没有标签

比如:

  • 你只有一堆传感器数据,但不知道哪些是故障(也没人标记过)
  • 这时候你不能用分类/回归,只能用无监督方法(如 Isolation Forest、K-Means)
  • 模型自己“猜”哪些点不正常 → 这叫异常检测(Anomaly Detection)

✅ 所以:“有没有标签”决定了你能不能用监督学习!


三、在你的传感器场景中,标签从哪里来?

这是关键!标签不是凭空产生的,通常来自:

✅ 1.人工标注

  • 工程师在设备故障后回溯数据,标记“从哪一刻开始算故障”
  • 成本高,但最准确

✅ 2.系统日志 / 报警记录

  • 设备自带故障报警信号(如 PLC 输出error_code=5
  • 可自动对齐时间戳,生成标签

✅ 3.间接定义

  • 比如:当某个传感器值 > 阈值(如温度 > 100℃)→ 视为“异常”
  • 虽然不是真实故障,但可作为代理标签(proxy label)

✅ 4.RUL 标签的构造方法

假设你知道设备在第 200 小时彻底失效:

  • 第 190 小时的数据 → RUL 标签 = 10
  • 第 180 小时的数据 → RUL 标签 = 20
  • ...
  • 第 0 小时(初始) → RUL 标签 = 200

📌 这种标签需要完整的寿命周期数据(从健康到失效)


四、有标签 vs 无标签 —— 如何选择方法?

场景是否有标签?推荐方法
有历史故障记录 + 时间戳✅ 有LightGBM 分类 / LSTM 回归
只有正常运行数据,从未记录故障❌ 无Isolation Forest、Autoencoder 异常检测
有部分故障数据(很少)⚠️ 少量半监督学习、One-Class Classification

五、代码示例:带标签 vs 不带标签

1.有标签(监督学习)

# X: 传感器特征 (n_samples, n_features) # y: 标签,0=正常,1=故障 X = [[85, 3.2], [90, 4.1], [70, 1.0], ...] y = [1, 1, 0, ...] # 用 LightGBM 训练 from lightgbm import LGBMClassifier model = LGBMClassifier() model.fit(X, y) # 注意:这里传入了 y(标签)

2.无标签(无监督)

# 只有 X,没有 y X = [[85, 3.2], [90, 4.1], [70, 1.0], ...] # 用 Isolation Forest from sklearn.ensemble import IsolationForest model = IsolationForest() model.fit(X) # 不需要 y! preds = model.predict(X) # 输出 1(正常)或 -1(异常)

总结一句话:

标签就是“标准答案”——
有答案就教模型学(监督学习),
没答案就让模型自己找规律(无监督学习)。

在工业预测性维护中,获取高质量标签往往是最大难点。很多项目前期都在解决“如何定义和获取标签”的问题。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/31 5:13:33

长晶科技车规级稳压二极管:多系列全布局 护航汽车电子稳定运行

在汽车电子架构不断向智能化、集成化升级的背景下,稳压二极管作为电路稳压、过压保护的核心元器件,其车规级产品需满足更高的可靠性、稳定性及环境适应性要求。长晶科技深耕半导体器件领域,针对汽车电子应用场景推出多款车规级稳压二极管系列…

作者头像 李华
网站建设 2026/3/25 17:47:00

docker 部署 Prompt Optimizer (提示词优化器)

Prompt Optimizer (提示词优化器) 🚀 在线体验 | 快速开始 | 常见问题 | 开发文档 | Vercel部署指南 | Chrome插件 📖 项目简介 Prompt Optimizer是一个强大的AI提示词优化工具,帮助你编写更好的AI提示词,提升AI输出质量。支持…

作者头像 李华
网站建设 2026/3/26 14:52:13

计算机深度学习毕设实战-基于python的海洋生物识别

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/4/1 0:14:42

深度学习毕设选题推荐:基于人工智能卷积神经网络的海洋生物识别

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/3/20 18:37:24

又一个智能体标准:智能体纲要(Agent Skills)

引 言 AI 的“员工手册” 在与 AI 协作的过程中,你是否厌倦了每次都要重复粘贴冗长的提示词(Prompt)?或者,你是否发现 AI 虽然聪明,但总是记不住你团队特定的代码规范、文档格式或业务流程?或…

作者头像 李华