驱动程序开发第一步：模块加载与卸载机制详解-智慧文博士

驱动开发第一步：从“Hello World”到模块生命周期的深度实践

你有没有试过写一个驱动，insmod一执行，系统日志里蹦出一行Hello, this is my first driver!，然后心里默默激动了一下？别笑——几乎所有 Linux 内核开发者都从这行打印开始。

但你知道吗？这短短一行输出背后，藏着一套精密运作的机制：内核如何加载你的代码？它怎么知道该从哪里开始执行？卸载时又怎样确保不会留下“内存垃圾”？这些问题的答案，正是我们踏入驱动程序开发大门的第一课：模块的加载与卸载机制。

为什么我们需要可加载模块？

在早期操作系统中，所有驱动都要编译进内核镜像。这意味着哪怕你只用了一个小小的串口设备，也得把整个 USB、PCI、网络协议栈统统打包进去。结果就是：内核臃肿、启动慢、调试难。

Linux 的聪明之处在于引入了Loadable Kernel Module（LKM）机制。你可以把它理解为“内核插件”——运行时动态插入或拔出，就像给电脑插U盘一样灵活。

这种设计带来了三大好处：

节省内存：不用的功能不加载；
快速迭代：改完代码，重新insmod即可验证，无需重启；
热插拔支持：USB 设备插上自动加载对应驱动，拔掉后还能安全卸载。

而这套机制的核心，就藏在两个宏里：module_init()和module_exit()。

模块是怎么被“唤醒”的？——加载流程全解析

当你敲下这条命令：

sudo insmod hello_module.ko

你以为只是简单复制了个文件？其实一场复杂的“内核手术”正在后台悄然进行。

第一步：用户空间发起请求

insmod是一个用户态工具，属于kmod工具集的一部分。它会读取.ko文件（本质是 ELF 格式），并通过系统调用init_module()把模块数据传入内核。

注意：普通进程无法调用此接口——必须有CAP_SYS_MODULE权限，也就是 root 或具备特定能力的进程。

第二步：内核接管并校验

进入内核后，module.c开始工作。它要做的第一件事不是急着运行代码，而是严格审查这个模块是否可信：

检查项	说明
ELF 头合法性	是否符合标准格式
Vermagic 匹配	内核版本、编译选项是否一致（防止错配崩溃）
符号依赖解析	是否引用了未导出的函数（如`kmalloc`）
签名验证（若启用）	是否经过 GPG 签名认证

一旦发现不匹配，比如你在 6.1 内核上强行加载为 5.15 编译的模块，直接拒绝。

第三步：内存映射与重定位

通过审核后，内核为模块分配一块连续的内存区域，包含：

.text：代码段
.data：已初始化数据
.bss：未初始化数据
.rodata：只读常量

接着进行符号重定位——把代码中对printk、kmalloc等函数的调用，替换成当前内核中的真实地址。这一步类似于动态链接库的ld.so行为，只不过发生在内核空间。

第四步：执行初始化函数

终于到了最关键的一步：跳转到模块入口。

但这里有个问题——你怎么告诉内核：“我这个模块，该从哪个函数开始执行？”
答案就是：module_init()宏。

来看一段最基础的代码：

#include <linux/init.h> #include <linux/module.h> #include <linux/kernel.h> static int __init hello_init(void) { printk(KERN_INFO "Hello from kernel space!\n"); return 0; } module_init(hello_init);

这段代码看似简单，但每一处都有讲究。

`__init`是什么魔法？

__init是一个编译器标记，表示该函数仅在初始化阶段使用。一旦模块加载完成，其所占内存会被释放（归还给内核内存池）。这对于嵌入式系统尤其重要——省下来的几百字节可能就是关键资源。

小知识：如果模块被静态编译进内核（CONFIG_<FOO>_MODULE=n），__init函数不会被释放，以防后续需要调用。

`module_init()`到底做了啥？

我们来看看它的定义（简化版）：

#define module_init(x) static int __init initcall_##x(void) \ { return x(); } \ __initcall(initcall_##x);

它实际上做了两件事：

包装原函数hello_init成一个新的初始化函数initcall_hello_init；
使用__initcall()宏将其放入特殊的 ELF 段.initcall6.init中。

这些.initcallN.init段在内核启动时按顺序依次执行（N 越大优先级越低）。对于模块而言，它们统一归类为 level 6。

也就是说，module_init()并没有立刻执行你的函数，而是注册了一个“待办事项”，等内核准备好后再回调。

卸载不是“删除文件”那么简单

加载完成了，那卸载呢？很多人以为rmmod就是把模块内存 free 掉完事。错！真正的难点在安全释放。

设想一下：如果某个进程正在使用你的字符设备，这时候你贸然卸载模块，会发生什么？访问空指针？死机？还是更可怕的静默数据损坏？

为了避免这类灾难，Linux 设计了一套严谨的卸载机制。

谁能决定一个模块能不能卸？

核心机制是：引用计数（refcnt）。

每个模块结构体struct module都有一个refcnt字段，记录当前有多少其他实体依赖它。例如：

另一个模块调用了它导出的函数；
有进程打开了它创建的设备文件；
中断处理程序正在运行；

只要refcnt > 0，rmmod就会失败，返回Device or resource busy。

你可以用下面命令查看当前模块状态：

lsmod | grep your_module_name

输出中的第三列就是引用计数。

如何安全退出？靠的是`module_exit()`

和加载类似，我们也需要明确告诉内核：“卸载时，请先调用我这个清理函数。”

static void __exit hello_exit(void) { printk(KERN_INFO "Goodbye! Cleaning up...\n"); } module_exit(hello_exit);

`__exit`的作用

如果模块是以 LKM 方式加载的，该函数保留在内存中，等待卸载时调用；
如果模块被静态编译进内核，则整个函数被编译器丢弃（节省空间）；

这也意味着：即使初始化失败，也不会执行__exit函数。所以资源释放逻辑必须紧跟着分配操作之后立即判断错误并回滚。

一个完整的驱动模板长什么样？

光说不练假把式。来个实战范本，涵盖常见资源管理场景：

#include <linux/init.h> #include <linux/module.h> #include <linux/kernel.h> #include <linux/fs.h> #include <linux/cdev.h> #include <linux/device.h> #include <linux/slab.h> // kmalloc/kfree #define DEV_NAME "my_dev" #define CLASS_NAME "my_class" static dev_t dev_num; static struct cdev my_cdev; static struct class *my_class; static struct device *my_device; static int __init demo_init(void) { int ret = 0; pr_info("Initializing module...\n"); // 1. 动态分配设备号 ret = alloc_chrdev_region(&dev_num, 0, 1, DEV_NAME); if (ret < 0) { pr_err("Failed to allocate device number\n"); return ret; } // 2. 创建设备类 my_class = class_create(THIS_MODULE, CLASS_NAME); if (IS_ERR(my_class)) { unregister_chrdev_region(dev_num, 1); pr_err("Failed to create class\n"); return PTR_ERR(my_class); } // 3. 创建设备节点 my_device = device_create(my_class, NULL, dev_num, NULL, DEV_NAME); if (IS_ERR(my_device)) { class_destroy(my_class); unregister_chrdev_region(dev_num, 1); pr_err("Failed to create device\n"); return PTR_ERR(my_device); } // 4. 初始化并添加字符设备 cdev_init(&my_cdev, &fops); // 假设 fops 已定义 ret = cdev_add(&my_cdev, dev_num, 1); if (ret < 0) { device_destroy(my_class, dev_num); class_destroy(my_class); unregister_chrdev_region(dev_num, 1); pr_err("Failed to add cdev\n"); return ret; } pr_info("Module loaded successfully with major=%d\n", MAJOR(dev_num)); return 0; } static void __exit demo_exit(void) { // 注意：逆序撤销注册操作（RAII原则） cdev_del(&my_cdev); device_destroy(my_class, dev_num); class_destroy(my_class); unregister_chrdev_region(dev_num, 1); pr_info("Module safely unloaded.\n"); } module_init(demo_init); module_exit(demo_exit); MODULE_LICENSE("GPL"); MODULE_AUTHOR("Your Name"); MODULE_DESCRIPTION("A complete char driver template"); MODULE_VERSION("1.0");

几点关键提醒：

所有资源申请都要立即检查返回值；
失败时必须按相反顺序释放已有资源；
使用pr_info()/pr_err()替代原始printk，自带前缀更清晰；
THIS_MODULE是模块自身的指针，用于关联设备归属。

实际开发中那些踩过的坑

别以为照着模板就能一帆风顺。以下是新手高频雷区：

❌ 忘记注销设备号 → 下次加载失败

insmod: error inserting 'xxx.ko': -1 Device or resource busy

原因：上次卸载没调用unregister_chrdev_region()，导致主设备号仍被占用。

解决办法：确保demo_exit()中包含对应释放语句，并确认函数确实被执行（可通过 dmesg 查看日志）。

❌ 在中断上下文睡眠 → 触发 kernel panic

// 错误示例 irqreturn_t my_interrupt(int irq, void *dev_id) { msleep(10); // ⚠️ 禁止！中断上下文不能阻塞 return IRQ_HANDLED; }

后果：直接宕机。因为中断上下文没有进程上下文，调度器无法恢复执行。

正确做法：使用 workqueue 或 tasklet 延后处理耗时任务。

❌ 清理函数遗漏互斥锁销毁

如果你用了mutex_init(&my_mutex)，记得在退出时调用mutex_destroy(&my_mutex)，否则可能导致后续模块加载时报锁冲突。

模块机制的应用远不止设备驱动

虽然我们以驱动为例，但模块化思想贯穿整个内核生态：

应用领域	示例模块
文件系统	`ext4.ko`,`ntfs3.ko`
网络协议	`af_key.ko`(IPSec)
加密算法	`aes_generic.ko`
调试工具	`ftrace.ko`,`kprobes.ko`

甚至某些安全模块（如 SELinux）也可以作为可加载组件存在。

这也说明了一个事实：掌握模块机制，不仅是写驱动的基础，更是深入理解 Linux 内核架构的钥匙。

写在最后：模块还在，方式在变

随着 eBPF 技术兴起，有人预言传统 LKM 将被淘汰。毕竟 eBPF 更安全、更轻量、无需编写完整模块即可扩展内核行为。

但现实是：eBPF 解决的是“观测与策略控制”，而 LKM 仍是“功能实现”的主力。你要做一块网卡驱动、一个新型存储控制器？目前依然绕不开.ko模块。

而且，两者并非对立。现代内核早已支持BPF + LKM 协同工作——用 BPF 监控性能，用 LKM 实现底层交互。

所以，与其担心被淘汰，不如扎扎实实把基础打牢。当你能写出一个稳定、健壮、可维护的模块时，你会发现：那句简单的printk("Hello")，不只是入门仪式，更是通往内核世界的通行证。

如果你也曾为了一个rmmod失败而翻遍dmesg日志，欢迎在评论区分享你的“驱魔”经历 😄

驱动程序开发第一步：模块加载与卸载机制详解

驱动开发第一步：从“Hello World”到模块生命周期的深度实践

为什么我们需要可加载模块？

模块是怎么被“唤醒”的？——加载流程全解析

第一步：用户空间发起请求

第二步：内核接管并校验

第三步：内存映射与重定位

第四步：执行初始化函数

`__init`是什么魔法？

`module_init()`到底做了啥？

卸载不是“删除文件”那么简单

谁能决定一个模块能不能卸？

如何安全退出？靠的是`module_exit()`

`__exit`的作用

一个完整的驱动模板长什么样？

实际开发中那些踩过的坑

❌ 忘记注销设备号 → 下次加载失败

❌ 在中断上下文睡眠 → 触发 kernel panic

❌ 清理函数遗漏互斥锁销毁

模块机制的应用远不止设备驱动

写在最后：模块还在，方式在变

告别手动标注！SAM3提示词分割模型镜像开箱即用

SenseVoice Small镜像实战｜快速部署多语言语音理解与情感分析WebUI

前后端分离企业资产管理系统系统｜SpringBoot+Vue+MyBatis+MySQL完整源码+部署教程

基于LLM的音乐生成革命｜NotaGen镜像实践与技巧分享

语音产品原型速成：用CAM++三天搭出Demo演示

Fun-ASR支持哪些语言？中英日多语种实测报告

驱动开发第一步：从“Hello World”到模块生命周期的深度实践

为什么我们需要可加载模块？

模块是怎么被“唤醒”的？——加载流程全解析

第一步：用户空间发起请求

第二步：内核接管并校验

第三步：内存映射与重定位

第四步：执行初始化函数

__init是什么魔法？

module_init()到底做了啥？

卸载不是“删除文件”那么简单

谁能决定一个模块能不能卸？

如何安全退出？靠的是module_exit()

__exit的作用

一个完整的驱动模板长什么样？

实际开发中那些踩过的坑

❌ 忘记注销设备号 → 下次加载失败

❌ 在中断上下文睡眠 → 触发 kernel panic

❌ 清理函数遗漏互斥锁销毁

模块机制的应用远不止设备驱动

写在最后：模块还在，方式在变

告别手动标注！SAM3提示词分割模型镜像开箱即用

SenseVoice Small镜像实战｜快速部署多语言语音理解与情感分析WebUI

前后端分离企业资产管理系统系统｜SpringBoot+Vue+MyBatis+MySQL完整源码+部署教程

基于LLM的音乐生成革命｜NotaGen镜像实践与技巧分享

语音产品原型速成：用CAM++三天搭出Demo演示

Fun-ASR支持哪些语言？中英日多语种实测报告

`__init`是什么魔法？

`module_init()`到底做了啥？

如何安全退出？靠的是`module_exit()`

`__exit`的作用